Download presentation
Presentation is loading. Please wait.
1
网格计算及其在高能物理中的应用概况 高能物理所计算中心
2
本报告参考了: CERN钱思进教授2002年7月的报告 Grid Computing and its Application IHEP孙功星副研究员准备2000年11月8日在韩国召开的“国际高能物理数据网格研讨会上所作的报告 Grid Activity in china IHEP杨大鉴研究员的博士生蒋文保的报告 Grid Computing 美国加州理工大学Harvey B Newman 在2002年10月9日ICFA讨论会上作的报告 Report from ICFA Standing Committee on Interregional Connectivity 许榕生研究员为本次大会准备的报告 高能物理网格发展动态
3
网络技术的三次浪潮 什么是网格计算 为什么现在会发展网格计算 哪些行业需要网格计算 高能物理对计算的需求 网格计算的基本技术 国际网格计算技术的发展现状 国内网格计算现状及发展前景
4
网络技术发展的三次浪潮 第一次浪潮:Internet的产生(80年代) 第二次浪潮:WWW(80年代末- 90年代中期)
计算机相互连接的发展产生了局域网 FTP、Telnet、 newsgroup、BBS 第二次浪潮:WWW(80年代末- 90年代中期) 超文本文件由http协议连接 WWW的产生(1989年由CERN科学家发明) 第三次浪潮:Grid(90年代后半期-...) 各种资源统一通过网格技术连接 根据用途不同分为数据网格、计算网格...
5
什么是网格 Argonne实验室的I. Foster认为网格是一种规模大小可变的虚拟组织:由动态合作的个体、研究单位和资源所有者之间的灵活的、安全的、协调的资源共享 虚拟组织的成员——分布在世界各地的,为了完成同一件事情的研究机构、大学、科学家个体… 资源——计算机、存储设备、网络、大型科学仪器、数据库、软件、信息… 用户的观点:希望使用网上资源像使用电力、自来水那样方便,不必关心是从哪里来的资源,也不必考虑用多用少,总能满足需求。
6
与电力网比较 主动的,可以是提供共享资源的节点 被动的 最终用户规则 无须中心控制 是,在很多国家和地区由政府单一控制 中心控制 全世界
国家或地区(基于政治或经济因素等) 共享地域 地理分布、研究或工业领域、研究机构… 地理分布 共享范围 计算机、数据存储设备、数据库、大型仪器设备、网络、软件… 发电站、高压线、变电站 … 共享资源 计算网格 电力网格
7
为什么现在会发展网格计算 需求 可能性 计算密集型、I/O密集型、数据密集型计算的需求 需要使用位于远处的大型、位置固定的仪器设备
在不同地区使用具有不同政策的已有技术的复杂需求 大型国际合作项目的需求 可能性 计算机工业技术符合摩尔定律的发展 网络基础设施飞速发展,发达国家、地区高速网络及跨大洋的洲际光缆已经具备相当的规模 软件技术的新发展
8
哪些行业需要网格计算 生物、生化研究 人类基因研究 爱滋病药物研究 地震仿真研究 大气物理与气象预报 高能物理理论与实验
9
家庭中的计算机用来评价爱滋病药物 ___________ image courtesy from 社团组成: 共同的目的= 促进爱滋病研究
数千家庭计算机用户 慈善机构提供的计算能力 (Entropia) 研究组 (Scripps) 共同的目的= 促进爱滋病研究 ___________ image courtesy from
10
NEESgrid(地震工程和仿真网格):
将地震工程师与实验设施、数据库、计算机结合的体系结构 按需地使用实验、数据流、计算设施、档案、合作 NEESgrid: Argonne, Michigan, NCSA, UIUC, USC
11
高能物理对计算的需求 以LHC实验为例
12
Large Hadron Collider (大型强子对撞机)
能量.: 14 TeV (质子-质子) 1250 TeV (铅核-铅核) 亮度: cm-2s-1 (质子-质子) 1027 cm-2s-1 (铅核-铅核) 周长: km 主要实验: 4个
13
4 主要的 LHC 实验 ATLAS CMS ALICE LHCb
14
LHC 计算需求 数据存储 – 处理能力 – 原始数据率 0.1 – 1 GByte/sec 相当于 5-8 PetaBytes/year
200,000 个目前 (2001) 最快的 PC机
15
HPSS HPSS HPSS HPSS HPSS LHC高能物理实验数据处理示意图 层 2 层 0 +1 层 1 层 3
CERN内部/外部 比例 ~1:2 层 0/( 层 1)/( 层 2) ~1:1:1 ~PByte/sec ~ MBytes/sec 在线取数 对撞实验 CERN 700k SI95 ~1 PB Disk; Tape Robot 层 0 +1 HPSS 层 1 ~2.5 Gbits/sec FNAL: 200k SI95; 600 TB IN2P3 Center HPSS RAL Center HPSS INFN Center HPSS HPSS 2.5 Gbps 层 2 层 2中心 Tier2 Center Tier2 Center Tier2 Center Tier2 Center ~2.5 Gbps 层 3 Institute ~0.25TIPS Institute Institute Institute 离线物理数据 Mbits/sec 2007-8年达几十 Pbyte/sec. 5年左右达到1000PByte/sec 层 4 PC或工作站
16
世界上参加高能物理实验合作的单位 ICFA ——国际未来加速器委员会 SCIC ——地区间连接标准委员会 欧洲: 267 个研究单位,
4603 个用户 其他地区: 208 个研究单位, 1632 用户 ICFA ——国际未来加速器委员会 SCIC ——地区间连接标准委员会
17
高能物理对网络的需求 ICFA 于1996年启动各国之间的高速网络互联计划 ICFA 要求参与国际高能物理合作的国家和机构 必须:
检查他们的运行方法以便保证与远方合作者的完全连接 争取提供必要的通信设施和足够的国际带宽
18
ICFA 1998联网带宽计划(Mbps) 估计1998-2005年期间将增加100–1000 倍的带宽需求 每个物理学家使用的带宽
(所用峰值带宽) 大学组使用的带宽 本地实验室或地区中心 中心实验室,包括一个或几个主要实验使用的带宽 跨大洋连接带宽 估计 年期间将增加100–1000 倍的带宽需求
19
跨越大西洋的带宽要求[*] [*] 按最大占用50%算
20
网格技术产生的技术基础 高性能计算技术的发展 网络基础设施的高度发达 软件技术的新发展 CPU技术飞速发展 超级计算机与计算机集群
大规模共享资源 网络基础设施的高度发达 发达国家的高速光纤网已四通八达 跨大洋的海底光缆连接已经具有相当规模 软件技术的新发展 异构平台体系和语言 广域网的资源共享软件 中间件 网络安全技术
21
CPU的计算速度每18个月翻一番 你家里的PC机的CPU计算能力已经相当服务器的CPU了
它们在网格里可以提供给需要的人使用,而对你毫无影响
22
中国计算机TOP50排行榜 第一: “深腾1800”,联想研制,安装于科学院数学院,具有512个Intel Xeon 2.0G CPU,峰值计算能力2048 Gflops 第三:HP SuperDome,用于北京社会保险,具有256个CPU,峰值计算能力384 Gflops 第42:北京大学数学学院在国内最早自行组装的大型PC-Farm,具有60个PIII-700 CPU,峰值计算能力42 Gflops
23
网络基础设施的高度发达 网络速度每9个月翻一番(技术) 网络带宽每5年提高一个数量级(实际) 发达国家的高速光纤网已四通八达
跨大洋的海底光缆连接已经具有相当规模
24
主干网与各国连接的进展 法国 (IN2P3): 2.5 Gbps RENATER
欧洲 GEANT 主干网 联结31个国家,速率 2.5 and 10 Gbps 英国: JANET 网,速率10 Gbps 2.5 Gbps NY-London, with 622 Mbps to ESnet and Abilene 法国 (IN2P3): 2.5 Gbps RENATER 里昂-日内瓦(CERN)的连接千兆以太网1.0G 计划2003年改用光纤 SuperSINET (日本): 10 Gbps IP and 10 Gbps Wavelength Core 东京-纽约的连接: 2 x 2.5 Gbps; 需要到Starlight CA*net4 (加拿大): 国内光纤,速率10 Gbps “Lambda-Grids” 计划2004年5月实现 GWIN (德国): 2.5 Gbps 骨干; 到美国 2 x 2.5 Gbps; 俄罗斯: 155 Mbps 连到莫斯科 到GEANT 155 Mbps
25
(续) 纽约到阿母斯特丹由Tyco公司捐助(IEEAF )计划,
美国Abilene (Internet2) 从 2.5G 正升级到10 Gbps Encourage high throughput use for targeted applications 美国能源部ESNET: 升级到 10 Gbps 美国与西欧中心(CERN) 622 Mbps; 到STARLIGHT 2.5G 三地STARLIGHT-CERN-NL连接2003年到10G 美国SLAC到法国IN2P3 (BaBar) ~100 Mbps通过US-CERN到Renater 600 Mbps 今年BaBar的目标 美国费米实验室 (FNAL) 与Esnet 连接升级到622 Mbps 用光纤连到STARLIGHT 纽约到阿母斯特丹由Tyco公司捐助(IEEAF )计划, 2002年由IEEAF安排 622 Gbps+10 Gbps Research Wavelength
26
bandwidth distribution
One of the most homogeneous bandwidth distribution
27
DataTAG Project NewYork ABILENE UK SuperJANET4 It GARR-B STARLIGHT ESNET GEANT GENEVA Wave Triangle CALREN NL SURFnet STAR-TAP Fr Renater EU-Solicited Project. CERN, PPARC (UK), Amsterdam (NL), and INFN (IT); and US (DOE/NSF: UIC, NWU and Caltech) partners Main Aims: Ensure maximum interoperability between US and EU Grid Projects Transatlantic Testbed for advanced network research 2.5 Gbps Wavelength Triangle 7/02 (10 Gbps Triangle in 2003)
28
加州-东京 ~1/03 纽约-欧洲 9/02 (研究)
29
软件技术的新发展 异构平台体系与程序语言 中间件 广域网的资源共享软件 网络安全技术 Java语言、Java虚拟机
代理、可移动代理、CORBA 广域网的资源共享软件 文件共享,如AFS 数据库,如Objectivity 网络安全技术 SSH、SSL 认证/授权技术 加密技术 数字签名、防抵赖技术
30
网格计算的基本技术(服务功能) 通信服务 信息服务 安全认证 名字服务 监视系统 资源管理和调度 资源交易机制 编程工具 用户图形界面
31
GRID的协议分层体系结构 应用层 汇聚层 资源层 连接层 基础层 TCP层 IP层 链路层 Grid协议体系结构
Internet协议体系结构
32
计算网格是如何实现的 Grid 结构 Globus Toolkit™ Application Collective Resource
“Coordinating multiple resources(汇聚多个资源)”: 普及体系结构服务、应用特定的分布式服务 Resource “Sharing single resources(共享单一资源)”: 协商访问、控制使用 We define Grid architecture in terms of a layered collection of protocols. Fabric layer includes the protocols and interfaces that provide access to the resources that are being shared, including computers, storage systems, datasets, programs, and networks. This layer is a logical view rather then a physical view. For example, the view of a cluster with a local resource manager is defined by the local resource manger, and not the cluster hardware. Likewise, the fabric provided by a storage system is defined by the file system that is available on that system, not the raw disk or tapes. The connectivity layer defines core protocols required for Grid-specific network transactions. This layer includes the IP protocol stack (system level application protocols [e.g. DNS, RSVP, Routing], transport and internet layers), as well as core Grid security protocols for authentication and authorization. Resource layer defines protocols to initiate and control sharing of (local) resources. Services defined at this level are gatekeeper, GRIS, along with some user oriented application protocols from the Internet protocol suite, such as file-transfer. Collective layer defines protocols that provide system oriented capabilities that are expected to be wide scale in deployment and generic in function. This includes GIIS, bandwidth brokers, resource brokers,…. Application layer defines protocols and services that are parochial in nature, targeted towards a specific application domain or class of applications. These are are are … arrgh Connectivity “Talking to things(与东东的对话)”: 通信 (Internet 协议) 与 安全 Fabric “Controlling things locally(本地控制的东东)”: 访问与控制、资源 For more info:
33
GRID技术要点—组成结构 网格结点 中间件 开发环境和工具层 应用层
34
国际网格计算技术的发展现状 科学界 政府 厂商 美国Argonne实验室 : Globus 欧盟数据网格 : EU DataGrid
物理学网格 : GriPhyN 地震工程与仿真网格 : NEESgrid 政府 美国能源部 (DOE) : DOE Science Grid 美国国家航天局 (NASA) : Information Power Grid 美国国家科学基金会 (NSF)国家计算科学联盟 (NCSA) : National Technology Grid 德意志联邦教育科研部 (BMBF): UNICORE 厂商 IBM SUN Platform
35
HEP领域中的GRID技术 高能物理领域对计算技术的需求历来走在时代的前列,关于GRID技术的研究也不例外 举例:
美国的粒子物理数据网格 PPDG 欧盟数据网格 (EU DataGrid) 西欧核子研究中心CERN的LCG计划
36
PPDG ---参与者 加州理工大学 阿槓国家实验室 劳伦斯伯克利实验室 布鲁克海文国家实验室 费米国家实验室 圣地亚哥超级计算机中心
斯坦福直线加速器中心 威斯康星大学
37
PPDG ---主要目标 为成千个物理学家提供广域分布的PB量级(1015Byte)数据的粒子物理数据分析的体系结构
加速广泛针对数据密集型科学合作的网络和中间件体系结构的发展
38
PPDG ---体系框图
39
PPDG ---技术方案 第一步(1999年): 提供两个不同地点间的高速文件复制服务 提供多地点高速缓存的文件存取服务
40
PPDG ---技术方案 第二步(2000-2001年): 开发一个一般化的文件迁移框架(支持 QoS)
作为透明写访问和代理技术所需要的基础,作到目录、资源代理和匹配服务的实现/通用化 实现文件的透明的写访问 实现对代理的有限支持 实现数据网格的分布资源管理 在组件级和结构级主要努力作到健壮性和快速问题诊断
41
PPDG ---技术方案 长远目标 : 系统必须使用静态的和移动的独立代理去执行定义好的任务 系统必须是有弹性的、预测性的/自适应的
任务的优先级必须是基于策略和边界效用两者 必须使用辅助调度算法(匹配)在一定的时间限额内将请求配给资源,匹配的结果将影响用于度量边界效用的索引 事务管理必须使用上述价格估算法,比如抽查/重算机制
42
PPDG ---已有的技术基础 ANL: Globus 网格中间件服务 SLAC: 对象开放文件系统 (OOFS)
Caltech: 全球互连对象数据库 (GIOD) 项目 FNAL: 数据访问架构 (SAM) LBNL: 存储访问协作系统 (STACS) ANL: 规模可伸缩的目标存储和访问 Scalable Object Storage and Access 威斯康星大学的: Condor 分布资源管理系统 SDSC: 存储资源代理 (SRB)
43
欧盟数据网格计划 为进行数据密集型科学研究给大型分布科学组织提供世界级的网格
从计划的构思和机构的人员编制看主要涉及CERN和粒子物理界 (由LHC计划推动) 由地球观测和生物学共享
44
EU DataGrid 计划的目的 特定的计划目标: 与欧洲和美国的项目合作并提供补充 为开放标准和国际实体作出贡献:
构架的中间件和网格管理软件(大部分由欧盟资助) 大规模实验床(大部分由参加单位资助) 具有产品质量级别的演示(部分由欧盟资助) 与欧洲和美国的项目合作并提供补充 为开放标准和国际实体作出贡献:
45
EU DataGrid 主要参加者 CERN – International (Switzerland/France)
CNRS – France ESA/ESRIN – International (Italy) INFN – Italy NIKHEF – The Netherlands PPARC - UK
46
项目计划 计划从2001年1月1日开始 测试床 0 (2001年前期) 测试床 1 (2002年前期)
部署国际实验床0体系结构(仅用Globus 1 - 未用欧洲数据网格中间件) 测试床 1 (2002年前期) 第一版EU DataGrid 软件在项目内部定义了用户: 高能物理实验(工作组8)、地球观测(工作组9)、生物医学(工作10) 2002年3月1日成功通过欧盟的项目评审 测试床 2 (2002年10月) 在实验床 1上建立,扩充数据网格的功能 测试床 3 (2003年3月)和 测试床 4(2003年9月) 计划到2003年12月31日停止
47
EU DataGrid计划的各工作组分工 中间件 测试床 科学应用 宣传 WP11 项目管理 WP12 WP1 网格工作负载管理
48
EU DataGrid 软件结构 Apps Mware Globus Replica Catalog Grid Fabric
Information & Monitoring Replica Manager Grid Scheduler Local Application Local Database Computing Element Services Authorization Authentication and Accounting Replica Catalog Storage Element Services SQL Database Services Fabric services Configuration Management Node Installation & Monitoring and Fault Tolerance Resource Management Fabric Storage Grid Fabric Local Computing Data Management Job Management Metadata Management Object to File Mapping Service Index Globus Mware Apps Grid Application Layer Collective Services Underlying Grid Services
49
Web 用户界面 (1)
50
Web 用户界面 (2) 4th DataGrid Conference, Roberto Barbera
51
Web 用户界面 (3)
52
LHC 计算网格计划 —— LCG 开始称为MONARC计划,其任务是规划LHC的计算
目标: 每一个物理学家应该具有对于数据和资源的相同的访问通道 LHC 计算网格(LCG)计划是CERN理事会于2001年9月批准的 一个LCG计划的研讨会于2002年3月在CERN召开 CERN的人工计划: 147 人年 材料预算: ~7千5百万瑞士法郎 它并不是另一个网格技术计划,而是一个网格部署计划
53
LCG 计划的目的 准备和部署LHC的计算环境 应用 - 工具、框架、环境、持久性 计算系统 机群 合作的计算机中心
以CERN为中心的物理分析 助长合作,LHC 与区域计算中心结合 使用 data challenges 项目的规则
54
Data Grid for LHC Computing
Tier2 Centre ~1 TIPS Data Grid for LHC Computing Online System Offline Processor Farm ~20 TIPS CERN Computer Centre FermiLab ~4 TIPS France Regional Centre Italy Regional Centre Germany Regional Centre Institute Institute ~0.25TIPS Pentium II 300 MHz Physicist workstations ~100 MBytes/sec ~622 Mbits/sec ~1 MBytes/sec HPSS There is a “bunch crossing” every 25 nsecs. There are 100 “triggers” per second Each triggered event is ~1 MByte in size Physicists work on analysis “channels”. Each institute will have ~10 physicists working on one or more channels; data for these channels should be cached by the institute server Physics data cache ~PBytes/sec ~622 Mbits/sec or Air Freight (deprecated) Caltech ~1 TIPS Tier 0 Tier 1 Tier 2 Tier 4 1 TIPS is approximately 25,000 SpecInt95 equivalents ________________ Image courtesy Harvey Newman, Caltech
55
Summary of LHC Computing Grid
LCG 是一个在世界范围为LHC计算部署的专有的体系结构计划,并且是所有LHC实验计算共同的工作场所 LCG 面临许多技术挑战并需要在部署前的今后几年内解决它们 LCG 需要通过其他有关的 Grid 计划向所有的参加国和他们的负责人、向其他的科学、向工业界伸手来汇集资源 LCG 作为LHC计划的一部分在CERN享有最高优先级 无论如何,LCG 对于它的参加者、他们的合作者和贡献者都是非常重要的
56
国内网格计算现状及发展前景
57
中国的网格计划 织女星网格计划(计算所、科技部) 863计划的国家高性能计算环境(科技部与许多参加者) 网格体系结构建设 (教育部)
科学数据网格(科学院、科技部) 高能物理数据网格(高能所)
58
中国网格计划一览 为主要的网格基地研制超级服务器 建设一些高性能计算中心 为网格系统开发系统软件 在网格上开发应用示例
在100个大学之间建设2Gbps带宽的网络互连
59
织女星计划 • 设计和实现网格级的软件 • 建立一个国家级的由高性能计算中心支持的体系结构 • 开发在试验床上运行的应用
1. 设计目标: • 设计和实现网格级的软件 • 建立一个国家级的由高性能计算中心支持的体系结构 • 开发在试验床上运行的应用 2. 研究制造面向网格的超级服务器 —— 曙光 4000, 5000, 等等 3. 它将是一个服务网格,提供计算能力和其他服务
60
曙光超级计算机
61
织女星网格的批处理系统
62
旅游在线事务系统 旅游在线事务系统----在中国旅游 基于网格操作系统的应用 在网格上注册了四种基本服务 将这四种服务推向应用 天气预报
飞机票预订 景点门票预订 收费 将这四种服务推向应用
63
旅游在线事务系统
64
旅游在线事务系统
65
国家高性能计算项目 一览 在中国各地建立若干个高性能计算基地 将这些基地用现有网络互相连接起来 ( CERnet & CSTnet)
为每个基地提供曙光、 银河、 Sun 等超级计算机和 PC集群
66
国家高性能计算项目网格软件一览 在节点操作系统之上的功能层 资源、用户和任务管理 认证与授权 使用硬件加强的加密方法 基于Web的用户界面
67
网格系统软件
68
用户管理
69
任务管理(提交)
70
资源管理(寻找用户)
71
网格系统监视
72
网格实用命令
73
国家高性能计算网格应用 气象预报 石油库仿真 生物信息数据库与应用 数字风洞仿真 汽车撞击模拟 船舶结构分析 国家科学数据库与应用
数字图书馆
74
国家高性能计算网格示意图 Internet NHPCE Gigabit IP Network Audio Notebook HPC
BP, Mobile phone Video Camera Tel. Game TV DVD PC Internet Gigabit IP Network Node DB Info lib. Instr. NHPCE
75
科学数据网格项目 在科学数据库之上建立 属于中国科学院,向全世界开放 计划在 年提供服务
76
科学数据库(SDB) 科学院从1986年开始建立科学数据库 科学数据库是一组多种学科的数据库, 包括化学、生物学、地学、天文学、生态学、等等
到2005年,科学院 在全国有400多个研究所 有分布在全国的300多个各种数据库 有10TB以上的数据内容
77
为什么要搞科学数据网格(SDG)? 资源层—共享和开发 应用层—新兴的应用 使数据更容易访问 数据一体化
更容易做到:数据->信息->知识 应用层—新兴的应用 可以做以前做不到的应用 多数据库/多学科交叉应用 需要更多的资源(周期、带宽、仪器,等等)的应用
78
任务 建立实验床 1个数据中心 3个子数据中心 中间件 信息服务 安全 用户界面 应用 化学/地学/天文学/生物学…
79
生物中心 北京 SDG 资源 1000M 数据中心 (CNIC) 1000M 155M 化学中心 上海 地学中心 北京
80
高能所的GRID研究 基础网络环境建设 高性能计算环境建设 积极争取国内、国际合作 千兆校园网建设 增加网络出口带宽 加强网络管理和网络安全
PC集群系统建设 海量分级存储系统研究 广域网资源共享软件研究 GRID中间件研究 积极争取国内、国际合作
81
高能所千兆骨干网核心交换机
82
北京谱仪数据处理PC集群系统 3台数据服务器、17台计算节点机,共有25个CPU、4TB RAID磁盘组
83
LHC国际合作组PC集群系统 1台数据服务器、15台双CPU计算节点机,共有32个CPU、1TB RAID磁盘组
84
高能所数据网格研究 目前由高能所知识创新课题支持 在高能所校园网环境上为北京谱仪建立一个 BES虚拟组织
如有可能将来为CMS和Atlas合作增加两个虚拟组织 为羊八井ARGO实验建立ARGO-YBJ虚拟组织
85
高能网格实验床拓扑图 GIIS Two 6 CPUs PC-FARM GRIS GRIS Condor PBS
86
目前主要任务 大规模Linux平台配置与维护管理—LCFG. 认证/授权—GSI. 资源信息管理—MDS. 网格资源配置管理—GRAM.
数据复制管理—GDMP. 高能物理分析软件网格化—Appln.
87
将来工作 建设高能所校园网格环境,共享大约10个PC-Farm 促进与国家网格项目和国际网格界的合作
为在中国建立LHC计算合作的2级区域中心而努力
88
结论 Grid是继Internet和WWW之后网络技术的新发展 目前Grid技术尚未成熟,许多问题有待解决
各国的科学家和IT业正在努力发展Grid相关技术 Grid将在科学研究、工商业及生活中得到广泛应用 Grid将在几年内走到你身边
89
谢谢!
Similar presentations