Presentation is loading. Please wait.

Presentation is loading. Please wait.

云计算在高能物理实验 分布式计算的结合应用

Similar presentations


Presentation on theme: "云计算在高能物理实验 分布式计算的结合应用"— Presentation transcript:

1 云计算在高能物理实验 分布式计算的结合应用
赵祥虎 中科院高能所计算中心 分布式计算组

2 提要 高能物理实验分布式计算 云计算资源与分布式计算的集成 商业云 (AWS) 计算资源应用尝试 总结

3 高能物理实验分布式计算

4 高能物理实验 高能物理实验通过各种加速器、对撞机、探 测器获取微观世界的基本粒子之间的相互作 用数据。通过对这些数据的分析,探索新的 物理规律 欧洲核子物理研究中心(CERN)的 LHC 上 的四个实验:CMS, ATLAS, LHCb, ALICE 中科院高能所的实验:BESIII, JUNO, CEPC- SPPC,LHAASO,DAYABAY,YBJ

5 基于 DIRAC 的分布式计算系统 DIRAC (Distributed Infrastructure with Remote Agent Control) 最早由 LHCb 实验开发使用,后来成为独立的项目 通用开源的分布式计算框架 包含完整的作业管理和存储管理功能 整合不同站点的计算和存储资源 多实验 (VO) 支持 应用范围广泛 高能物理实验: LHCb, ILC, Belle II, BES III 天体物理实验: CTA, Glast, Fermi-LAT, LSST 其它: 生物医学、地球科学等等 系统特性 SOA 架构,优秀的扩展性和灵活性 Pilot job 拉作业模式

6 高能所分布式计算系统 高能所作为中心站点 远程站点 支持多个实验 (BESIII, CEPC, JUNO) 中心服务管理作业调度
中心数据存储 远程站点 合作单位提供计算及存储资源 接收中心作业调度任务 运行 MC 模拟、重建、分析 可以连接多种资源类型 集群资源(PBS, Condor,…),网格资源,志愿 者计算资源,云资源 支持多个实验 (BESIII, CEPC, JUNO) 用户可配置属于某个实验 站点可选择支持特定实验

7 云计算与分布式计算的集成

8 云计算与分布式计算 云计算可提供灵活的计算环境 将云计算集成到现有的分布式计算系统中 高能物理实验对操作系统、软件环境要求严格
对资源管理更为灵活 计算任务以事例为单位 事例之间通常没有关联 方便分布式并行处理 将云计算集成到现有的分布式计算系统中 统一作业调度管理 做到对用户完全透明

9 VMDIRAC 作为 DIRAC 扩展,最早应用于 Belle 实验 用于支持计算作业在云站点虚拟机上的运行 功能 特性 虚拟机管理
虚拟机调度 准备作业运行与软件环境 虚拟机状态监控 (作业状态,数据传输,操作系统状态) 特性 支持同时管理多个云站点 支持多种云管理器类型 OpenStack, OpenNebula, AWS 等 用户透明,对于用户只相当于增加新的站点

10 虚拟机和作业调度 调度过程 虚拟机调度策略 DIRAC 负责作业管理和调度 VMDIRAC 负责虚拟机管理调度
对作业需要资源量和虚拟机提供的资源量进行匹配 获取虚拟机及作业信息反馈给中心服务器 虚拟机调度策略 elastic 根据作业匹配情况启动和关闭虚拟机,最有效的利用计 算资源 static 根据作业队列启动一批虚拟机,一直运行,需手动关闭 类似于静态集群站点,能够更快响应作业调度,无作业 时存在资源浪费

11 虚拟机运算环境配置 虚拟机启动过程通过 cloud-init 进行定制 VMDIRAC 中 cloud-init 作用
对于不同云管理系统都有很好的支持 镜像中只需预安装好 cloud-init 默认配置可完美支持 OpenStack, AWS EC2 user-data OpenNebula 需要指定云管理器类型 (data source) VMDIRAC 中 cloud-init 作用 主要用于安装配置 DIRAC Job Agent 以及虚拟机监控模块 授予访问 DIRAC 服务的权限 配置软件运行环境 (CVMFS, 软件运行库, …)

12 云站点运行状态 已经加入来自世界各地多个合作机构的云计算资源 开放给物理用户使用 多试验支持 (BESIII, CEPC, JUNO) 站点
云类型 CLOUD.IHEP-OPENSTACK.cn OpenStack IHEP CLOUD.IHEP-OPENNEBULA.cn OpenNebula CLOUD.TORINO.it INFN CLOUD.INFN-PADOVANA.it CLOUD.JINR.ru JINR CLOUD.CNIC.cn CNIC 2014/12 ~ 2015/8 云站点运行状态

13 商业云 (AWS) 计算应用

14 为什么使用商业云 计算资源需求出现突然上涨 本地集群计算资源缺乏弹性 CERN 对 AWS 进行了大量研究和 测试
大型会议之前 国际竞争的实验要尽快分析出结果 本地集群计算资源缺乏弹性 新资源的购买部署需要数月时间 CERN 对 AWS 进行了大量研究和 测试 选用 AWS 进行商业云的尝试 主要使用 EC2 弹性计算服务

15 AWS 测试结果 测试使用 AWS EC2 计算资源,数据 保存回高能所存储系统 通过多批作业测试,AWS 成功集成
测试 BESIII 模拟、重建、分析作业 大约完成 600 个作业,总共生成 10 GB 数据传回高能所 很高的作业运行成功率 计算效率和数据传输速率稳定可靠 按时间作业运行数目 不同批次作业运行数目

16 AWS 性能测试及实例类型选择 对于 BESIII 实验作业,不同实例类型性能对比 c3 实例相对更适合于高能物理实验计算
更高的计算效率 更低的单位计算量价格 计算效率与本地集群计算资源相当 本地服务器 CPU E v3 模拟 (s/事例) 重建 (s/事例) 分析 (s/事例) 总 CPU 使用率 t2.micro 4.08 1.61 0.0357 86.5% m3.medium 1.03 0.32 0.0073 95.7% c3.large 0.64 0.21 0.0044 95.6% 本地服务器 0.40 0.13 0.0028 99.5%

17 AWS 账单分析 开启账单报告,获取更精确地账单信息 以一次运行在 c3.large 上的测试为例,运行大约 4 个小时
EC2 实例计算所占用的账单比例最大 以 BESIII MC 模拟重建分析作业为例,1000 rhopi 事例所需要的总价格约 为 0.20 RMB 账单 (CNY) 百分比 Data Transfer 1.60 2 % EC2 c3.large Instance 73.60 92 % EBS I/O Requests 2.40 3 % EBS Storage 其它 -

18 商业云优势与展望 商业云优势 展望 商业云的稳定性有很好的保障 极大的可用计算资源量 减轻站点维护的压力 可以作为分布式计算资源的有效补充
竞价实例 可以使用更低的价格获得计算资源 需要调整虚拟机和作业调度策略,物理软件也要进行相应调整 存储 目前没有使用商业云存储 价格较高,安全性需更完整考虑

19 总结 云计算资源已经提供给物理用户使用 AWS 商业云资源也成功集成到高能所分布式计算系统并 对其计价做了详细分析
云计算已经集成到高能所分布式计算系统,目前运行 稳定 云计算资源已经提供给物理用户使用 AWS 商业云资源也成功集成到高能所分布式计算系统并 对其计价做了详细分析 未来需要完善统一云计算管理、监控、调度

20 谢谢!


Download ppt "云计算在高能物理实验 分布式计算的结合应用"

Similar presentations


Ads by Google