Presentation is loading. Please wait.

Presentation is loading. Please wait.

高能所数据存储系统现状与规划 李海波 中科院高能所计算中心 2017/6/5 成都.

Similar presentations


Presentation on theme: "高能所数据存储系统现状与规划 李海波 中科院高能所计算中心 2017/6/5 成都."— Presentation transcript:

1 高能所数据存储系统现状与规划 李海波 中科院高能所计算中心 2017/6/5 成都

2 高能所承担的高能物理实验 BEPCII/BESIII 大亚湾反应堆 JUNO江门中微子实验 羊八井宇宙线实验 LHAASO高海拔宇宙线观测站
每年产生~100TB原始数据 目前数据量超过3.5PB 未来5年数据量超过5PB 大亚湾反应堆 目前数据量超过400TB JUNO江门中微子实验 每年产生2PB数据 羊八井宇宙线实验 每年产生200TB数据 LHAASO高海拔宇宙线观测站 CSNS、CEPC、硬X射线调制望远镜… 高能所是WLCG的Tier-2站点,参与ATLAS和CMS实验 2018/12/6 2017年高能物理计算和软件会议

3 典型高能物理数据处理过程 数据获取 数据处理 数据分析 从探测器获取Raw Data、蒙特卡洛产生数字化的二进制格式的电子信号
处理后Raw/MC Raw产生相关物理信息,如动量、能量等物理量 数据分析 由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果 蒙特卡洛模拟 探测器 原始数据/模拟数据 磁盘 磁带 高能所 重建数据 事例重建 磁盘 磁带 物理分析 物理成果 磁盘 2018/12/6 2017年高能物理计算和软件会议

4 高能物理数据存储需求 实验数据量巨大 支持高吞吐率的数据并发访问 实验数据需长期稳定存储 实验数据共享使用
PB级数据存储与处理,正在向EB级迈进 以非结构化数据为主 支持高吞吐率的数据并发访问 IO模式以大块数据(MB)读写,一次写多次读、吞吐率高(单个作业需要几MB/S)为特征 小文件(KB级的程序和文档)查询和浏览 高并发访问 实验数据需长期稳定存储 BESIII实验的原始数据必须保证在实验结束后至少15年以上的生命期内还可以使用 实验数据共享使用 国际合作密切,数据需要共享使用 2018/12/6 2017年高能物理计算和软件会议

5 海量数据分布式存储系统 集群文件系统 应用层存储系统 分级存储系统 其他
以传统文件系统的方式来访问,客户端实现内核模块,完全兼容POSIX语义,上层数据处理软件无需任何修改 Lustre、Gluster、GPFS、EOS、ISILON等 应用层存储系统 一般不实现文件系统内核模块,不完全兼容POSIX语义,上层应用功能需要调用特定API访问 GFS、HDFS等 分级存储系统 根据文件的访问频率、热度等因素,将不同数据分配到不同的存储设备上 基于磁带-磁盘:Castor、dCache 基于固态硬盘(SSD)和串口机械硬盘(SATA) 其他 云存储 Amazon S3 2018/12/6 2017年高能物理计算和软件会议

6 高能所数据存储服务 CASTOR CVMFS Gluster NFS DPM dCache AFS 2018/12/6
2018/12/6 2017年高能物理计算和软件会议

7 高能所数据存储服务 CASTOR CVMFS Gluster NFS DPM dCache AFS 实验数据存储
Lustre:主要存储大文件实验数据,如BES,DYB等实验 Gluster:主要存储小文件数据,如YBJ EOS:主要存储LHAASO实验数据 实验数据存储 2018/12/6 2017年高能物理计算和软件会议

8 高能所数据存储服务 CASTOR CVMFS Gluster NFS DPM dCache AFS 数据长期保存和备份
Castor:使用磁带进行数据长期保存和备份 数据长期保存和备份 2018/12/6 2017年高能物理计算和软件会议

9 高能所数据存储服务 CASTOR CVMFS Gluster NFS DPM dCache AFS 用户个人数据存储
AFS:用户HOME目录、公共软件库 CVMFS:公共软件库 IHEPBox:高能所云盘,存储用户个人文件 用户个人数据存储 2018/12/6 2017年高能物理计算和软件会议

10 高能所数据存储服务 CASTOR CVMFS Gluster NFS DPM dCache AFS 网格数据存储
dCache:存储CMS实验数据 DPM:存储ATLAS实验数据 网格数据存储 2018/12/6 2017年高能物理计算和软件会议

11 实验数据存储-Lustre系统 Lustre是Top 500计算机中使用最广泛的分布式文件系统 目前高能所最大的磁盘存储系统 硬件平台
开源可定制,兼容多种底层网络、IO性能横向性能扩展、完整的POSIX语义支持、细粒度的文件锁等特点 主要用于超算领域,全球多个高能物理实验室使用 目前高能所最大的磁盘存储系统 从2008年开始部署 主要用于存放BES,DYB,JUNO等实验数据 约 9 PB存储空间,60台服务器,1000多个客户端节点 已存放5 PB 的实验数据,2.7 亿个文件 硬件平台 HP/DELL 2U 商业服务器 Dell MD3860f/Huawei OceanStor V5500 盘阵 2018/12/6 2017年高能物理计算和软件会议

12 Lustre部署架构 当前架构 二次开发 万兆以太网上联 静态分区 存储直连 DDP快速磁盘重建 细粒度的性能监控 进程级IO追踪和作业分类
自适应的客户端Cache设置 多路径故障报警:邮件、短信、微信、WEB等 Cluster MDS MDT 7 MDSs 7 mount points Native SAS Disk Arrays of the servers, RAID 10 OSS OSTs Storage LUNs, RAID 6 DELL DDP/HUAWEI RAID2.0 (fast rebuild ) Capacity per OSS: 240TB-300TB # Disk per OSS: Capacity/Raw Disk Space: ~0.7 10 Gb Ethernet ~60 OSSs DAS Storage connection 2018/12/6 2017年高能物理计算和软件会议

13 Lustre规划 版本升级 可靠性 可用性 IO性能 2.5->2.9, 单一mount点,静态存储分区 商业版本,减少BUG修复延时
改进元数据存储的连接方式 多级数据冗余 可用性 服务器的ACTIVE-ACTIVE HA 基于性能和日志信息联合分析的故障预警 IO性能 通过万兆网卡bonding,消除网络性能瓶颈 2018/12/6 2017年高能物理计算和软件会议

14 实验数据存储-Gluster系统 Gluster文件系统是一个开源的分布式文件系统,可以支持数PB级存储容量和上千客户端
无元数据服务器,无单点故障,支持副本功能,具有高扩展性、高可用性、可横向弹性扩展等特点。 主要用于海量小文件数据存储 目前支持羊八井和Besfs2实验数据存储 Ybjgfs:约347T存储空间,5台服务器 Besfs2:约387T存储空间,8台服务器 Brick stoarge Computing Cluster SATA Disk Array RAID 6(Main) 10Gb Ethernet RAID 6(extended) 2018/12/6 2017年高能物理计算和软件会议

15 实验数据存储-EOS系统 CERN于2010年开发的磁盘文件系统 内存元数据服务器,支持纠删码、磁盘组等多种新型存储技术
目前已成为CERN主要的实验数据存储系统,存储规模达到150PB 美国、俄罗斯、澳大利亚等全球十几个高能物理实验室已部署多个PB级以上的EOS实例 2018/12/6 2017年高能物理计算和软件会议

16 EOS存储现状 面向计算服务: 2016年2月上线 1个实例 总空间797TB 已使用180TB,40万目录,1700万文件
支持LHAASO、多学科实验 每个用户默认配额100GB,5万个文件 总空间797TB 已使用180TB,40万目录,1700万文件 软件基于Beryl v 版本 5台服务器,其中元数据服务器配备128GB内存 2018/12/6 2017年高能物理计算和软件会议

17 EOS挑战 FUSE访问性能问题 ⇒ 重写EOS FUSE 元数据纵向扩展(scale up) ⇒ 横向扩展(Scale out)
解决方案:EOS Citrine 版本 优化元数据存储方式为内存数据库KV持久化存储(QuarkDB) 提供新的元数据服务器HA 使用XRootD 4 优化FUSE CERN将于2017 Q2上线 2018/12/6 2017年高能物理计算和软件会议

18 数据长期存储-Castor磁带存储 基于CERN开发的CASTOR1,二次开发分级存储系统 15个IBM 3584磁带柜
存放不频繁访问、需要长期保存的数据,如备份数据,原始物理数据 将磁盘、磁带整合,构建成统一的文件命名空间,根据文件访问频度等因素,自动在磁盘与磁带之间迁移数据 15个IBM 3584磁带柜 26个LTO4磁带驱动器 6223个槽位,约5PB磁带空间 2018/12/6 2017年高能物理计算和软件会议

19 Castor现状 已保存数据量约3.7PB 聚合访问速度2.1GB/s BES、DYB原始数据双份磁带 磁带升级:LTO4->LTO7
容量800GB/1.6TB(压缩后),传输速率:120MB/s LTO7磁带: 容量6TB/15TB(压缩后),传输速率:300MB/s 2018/12/6 2017年高能物理计算和软件会议

20 用户管理-AFS 用户管理 提供用户的HOME目录 存放各实验的公共软件库
负责全所计算用户(2055个)的账号和密码管理 提供用户的HOME目录 存放各实验的公共软件库 BESIII、JUNO、dayabay、CSNS、YBJ、LHAASO等 存储规模:空间45TB,5千多万个文件/目录(51M files/dirs) AFS系统面临的现状 AFS的软件更新很慢、人员离开、资金问题、社区不活跃等 AFS不支持IPV6 2018/12/6 2017年高能物理计算和软件会议

21 公共软件库-CVMFS CERNVM-FS是由CERN开发的一种缓存文件系统,相对于AFS由许多优点 CVMFS替代AFS存储公共软件库
Fuse模式 & 只读文件系统 客户端本地磁盘缓存 适合远程站点,加载公共软件 HTTP协议传输,基本不受站点防火墙影响 支持IPV6 CVMFS替代AFS存储公共软件库 存放各实验的公共软件库 2018/12/6 2017年高能物理计算和软件会议

22 CVMFS系统现状 CVMFS系统现状 IHEP-cc site remote site 存储规模:总空间19TB
已部署BESIII/HEPS_AP/BEPC等实验组软件库 对CERN/EGI/opensciencegrid进行本地数据同步 A B STRATUM-0 STRATUM-1 HA Squid a (squid01) Squid b Squid c login nodes work node IHEP-cc site remote site Public IP /cvmfs/repository/ 2018/12/6 2017年高能物理计算和软件会议

23 高能所云盘-IHEPBox IHEPBox是什么? 用途 基于EOS和Owncloud的高能所云盘
数据跨平台、实时同步 文档在线编辑、分享、上传下载、协同编辑、版本回调 多媒体文件在线预览、播放 数据加密、安全、稳定、高效 2018/12/6 2017年高能物理计算和软件会议

24 IHEPBox现状 高能所云盘IHEPBox 总空间192TB,使用13TB 4台服务器 每个用户100G空间 活跃用户~1000
2018/12/6 2017年高能物理计算和软件会议

25 存储系统演进路线 Gluster CVMFS NFS DPM dCache CTA AFS CVMFS NFS CASTOR
CVMFS NFS DPM dCache CTA AFS CVMFS NFS CASTOR 用户HOME目录&&公共软件库 逐步淘汰AFS HOME目录,使用EOS代替 公共软件库,使用CVMFS代替 数据长期存储 使用CTA(the tape backend of EOS),用户可以通过EOS直接从磁带检索或存档文件到磁带 实验数据存储 Lustre存储大文件实验数据 Gluster逐步淘汰 EOS存储小文件数据 2018/12/6 2017年高能物理计算和软件会议

26 什么是CTA? CTA( A tape backend for EOS ) EOS+CTA取代Castor进行磁带存储 EOS的磁带后端
磁带驱动器调度器 EOS+CTA取代Castor进行磁带存储 磁带中文件格式保持不变,只需迁移元数据 CERN deployments with CASTOR 1 Deployments with EOS plus CTA CASTOR Experiment Tape libraries EOS Files EOS + CTA Experiment Tape libraries EOS Files 2018/12/6 2017年高能物理计算和软件会议

27 总结和展望 高能物理数据存储有其特殊性,需要多种存储系统支持 高能物理数据存储系统需要满足不断增长的新需求 不同实验对存储需求不同
用户管理、公共软件 高能物理数据存储系统需要满足不断增长的新需求 EB级数据存储 跨地域多站点的统一存储 基于日志信息联合分析的故障预警 2018/12/6 2017年高能物理计算和软件会议

28 谢谢! 2018/12/6 2017年高能物理计算和软件会议


Download ppt "高能所数据存储系统现状与规划 李海波 中科院高能所计算中心 2017/6/5 成都."

Similar presentations


Ads by Google