Presentation is loading. Please wait.

Presentation is loading. Please wait.

高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍.

Similar presentations


Presentation on theme: "高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍."— Presentation transcript:

1 高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍

2 高能物理计算 背景和需求 01 体系结构 02 计算 03 存储 04 目录 CONTENTS 网络 05 系统管理 06 面临的问题 07

3 高能物理计算 PART ONE PART TWO PART THREE
BEPCII & BESIII 5年累积数据>5PB的数据 西藏YBJ宇宙线实验 每年200TB的原始数据 大亚湾中微子实验 累积数据:4PB数据 大型强子对撞机LHC 每年15PB的数据 将来的项目: 云南 Lhaasso:预计1.2PB*10年 江门中微子:预计1PB*10年 PART ONE PART TWO PART THREE 这段时间,追完了一部剧叫琅琊榜,看了几部电影,其中推荐Inside Out 看完了关于如何做科学研究的几本书,只是觉得像喝了几碗鸡汤,然并卵罢了

4 高能物理计算特点与需求 特点 01 对数据访问的存储与需求 02 新需求 03 串行作业 数据密集性计算 数据快速访问:I/O性能
数据长期保存:海量数据保存 国际合作共享数据:数据传输 对数据访问的存储与需求 02 03 并行作业 新需求

5 体系结构

6 高能所计算环境结构 ~12000 CPU cores 5PB tape library ~6 PB disk space
Power supply, cooling

7 机房基础设施 01 02 03 04 05 制冷 电力 消防 UPS 监视 空调制冷+机柜间水冷 机柜隔离间
总功率: 800kw -> 1600kw 单个机柜:10kw ->28kw 电力 02 03 联动气体灭火器 机房值班室->所保卫处->消防队 消防 04 UPS 05 温湿度传感器 机房值班+ OnCall 监视

8 计算 提供串行作业,MPI作业,GPU作业计算服务 当前 今后 ~9000 批处理作业槽 300+ GPU作业槽
1000+用户,活跃用户150个 今后 将增加至20,000作业槽

9 计算——作业管理(1) torque + maui htcondor slurm 使用超过10年 50+队列 性能监视
queue queue queue jobs torque + maui 使用超过10年 50+队列 性能监视 htcondor 适合单核作业,高吞吐作业量 CMS,JUNO,LHAASO slurm parallel计算支持较好 应用于很多高性能计算平台 nodes nodes nodes negotiator collector schedd jobs nodes nodes nodes

10 计算——作业管理(2) 作业统计 调度监视 作业记账

11 计算——网格计算 网格计算 -- Cern: 1999年:开始研究分布式网格计算,用于分析LHC的实验数据。
2001年: DataGrid Project,开发网格中间件,用于连接应用软件与 硬件资源,提供高能物理,生物信息等学科计算资源 2004年:Enabling Grid for E-science(EGEE)提供世界范围内的科 研人员不间断计算服务。每天完成2,000,000个计算作业。 2010年: European Grid Infrastructure (EGI) 支持欧洲网格服务 和基础设施的长期发展计划,扩展与其它网格项目的合作。

12 计算——网格计算

13 北京网格站点 支持ATLAS,CMS二个高能物理 实验 888作业槽,940TB存储 5Gbps网络连接到欧洲,10Gbps网 络连接到美国
IHEP 支持ATLAS,CMS二个高能物理 实验 888作业槽,940TB存储 5Gbps网络连接到欧洲,10Gbps网 络连接到美国 每年提供10,000,000 cpu小时计算 时间,完成5,000,000网格计算作业 高可靠性与有效性

14 计算——云计算 云计算:借助虚拟化技术、分布式海量存储技术等动态创建高度 虚拟化的IT资源池,通过网络提供服务 高能物理对云计算有强烈的需求
将OS与APP打包发布,提供轻量级的虚拟应用程序 将计算节点虚拟化,提高资源利用率 开源云中间件:OpenStack技术发展趋势 活跃社区,广泛支持 研究进行中 节点虚拟化管理、应用虚拟化封装等,即可提供大规模的云计算服务, 主要包括虚拟机(Iaas)、虚拟集群/网格(PaaS)以及云存储 (SaaS)服务

15 计算——云计算 现状 LHAASO、JUNO、BES、CEPC 动态分配资源 Openstack node1 node2 node3
…… YBJ BES node1 node2 node3 node4 Openstack

16 存储——高性能存储 … 采用高性能的并行集群文件系统,磁盘,带库分级存储 计算节点 并行集群文件系统 分级存储系统 统一存储系统
mds OSS 磁盘池 名字服务器 磁带池 HSM 物理存储设备 万兆以太网

17 存储——分级存储 根据高能物理计算的需求,自主开发 自动管理磁盘、磁带等不同的存储介质,多个磁带被虚拟成磁 带池,多个磁盘被虚拟成磁盘池
最后,通过名字服务器,将这些存储设备虚拟成统一的文件命 名空间。用户不用关心数据存放在什么存储设备,只需要按照 统一的文件名来访问即可 根据文件访问频度等因素,自动在磁盘与磁带之间迁移数据, 在保证海量数据存储的同时,也实现较高的数据访问性能,即 分级存储管理HSM 目前状况 26个LTO4磁带驱动器 ~1500个槽位,可以扩充到5PB的磁带空间 10个磁带服务器,10个磁盘服务器,120TB磁盘缓存

18 存储——分布式存储 Lustre,gLuster >6PB的磁盘存储 实际存储:>1亿个数据文件 针对不同的使用需求
大规模分布式存储系统 性能调优与二次开发 划分多个不同用途的存储区域 >6PB的磁盘存储 实际存储:>1亿个数据文件

19 网络——高速网络 科学院最大校园网,最高出口带宽 约500个网络服务器及设备 提供邮件,网络,协同工作等服务 >3000 用户
10G backbone IPv4/IPv6 双栈 校园网无线全覆盖 约500个网络服务器及设备 提供邮件,网络,协同工作等服务 >3000 用户 每年约4 PB的数据传输

20 管理——集中式部署管理(Puppet) Puppet: 开源的活跃社区 性能的需求 agent自动更新 Dashboard

21 管理——监视管理 Nagios Icinga Ganglia 设备监控、服务监控、分组监 控 机器分类、服务分组 分布式站点监控
自定义服务监控 Ganglia 计算环境当前及历史状态的记 录

22 管理——错误检查自修复工具 监视系统甄别问题节点 作业系统自动剔除 检查修复后恢复

23 管理——日志监控 FEK (Flume\Elasticsearch\kibana) 可靠 实时

24 管理——流量分析可视化 目标 任务 解答网络中Who?What? How?的问题
结合hadoop分布式框架 中的Map/Reduce编程思 想 Netflow数据采集 HDFS数据存储 实现实时和历史数据分析

25 管理——用户及设备管理 自主开发 用户管理系统 设备及备件管理 运行日志管理

26 面临的问题 面临困难 应用不断提出新的需求 开源软件的使用健壮性难以保证 集群规模扩张速度较快,故障频率增加
较多新型硬件 > 新的错误类型,需要联合厂商共同检查 应用不断提出新的需求 存储性能 作业调度性能 开源软件的使用健壮性难以保证 需求牵引,探索前进

27 谢谢! 问题?


Download ppt "高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍."

Similar presentations


Ads by Google