李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都 CSNS计算环境概述 李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都
CSNS简介 中国散裂中子源是国家投入大量资金重点建设的大科学装置,是位于国际前沿的高科技、多学科应用的大型研究平台。 预计2018年3月完成验收,第一期建设3台谱仪,规划建设20台谱仪 基于CSNS的实际计算和存储需求,建设了东莞数据中心
提 纲 资源需求 计算环境现状 研究工作 总结
计算需求 云计算平台 高性能计算平台 20台谱仪 3台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大 实验用户需要200 核CPU,1T 内存 所内用户需要400核,2TB内存 高性能计算平台 1000核CPU,4TB内存,提供MPI并行计算环境 20台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大
云平台存储 实验数据存储 数据库集群 数据备份 存储需求 虚拟实例需要10TB(20台谱仪,* 7) SSD快速存储50TB SAS存储200TB/年(20台谱仪,* 7) 实验数据存储 用户元数据 ,千万级条记录 高性能计算集群的统计数据 应用系统(zabbix、slurm、日志等) 数据库集群 磁带库50TB/年(20台谱仪,* 7) 数据备份
提 纲 资源需求 计算环境现状 研究工作 总结
计算环境现状 存储系统 云计算平台 高性能计算平台 数据库集群 公共软件库 运维与监控
存储系统 基于glusterfs构建的分布式存储系统 强大的横向扩展能力,支持数PB存储容量和数千客户端,运维简单 支持NFS, CIFS, HTTP, FTP以及Gluster原生协议,完全与POSIX标准兼容 完全支持openstack后端存储 不同的volume类型(SSD和SAS)
存储系统 SL 7.3, 3.8.10 RAID 5, 双副本 硬件 存储空间 同时支持Linux和Windows客户端 性能测试 2台SSD存储服务器 4台SATA存储服务器 存储空间 10TB SSD,300TB SATA 同时支持Linux和Windows客户端 性能测试 1M,640GB,8 process Read:1GB/sec,Write:500MB/sec
云计算平台 虚拟化环境建设-openstack 虚拟计算资源 568 vCPU, 1387GB vMEM 255个内网地址,32个公网地址 控制节点高可用 使用gluster提供统一存储(包含块存储、实例存储和文件存储) 控制节点和计算节点的松耦合架构,保证虚拟实例的独立性 虚拟计算资源 568 vCPU, 1387GB vMEM 255个内网地址,32个公网地址 10TB的云硬盘
云计算平台 网络架构优化 禁用l3-agent 物理网关代替虚拟网关 统一认证 认证与授权分离 Cloud-init 虚拟机初始化 动态热迁移 基于共享存储 消息中间件 RabbitMQ->ZeroMQ 网络架构优化 实现虚拟机和内网机器无缝互通 消除网络节点转发瓶颈和单点故障 统一认证
云计算平台 CSNS Cloud Portal
云计算平台 Network Topology Resource Statistics Running Status of vm
高性能计算平台 散裂中子源的计算特征 作业管理与资源调度系统——SLURM 基于MPI的并行计算占大多数 同时支持HPC和HTC 支持GPU计算 作业管理与资源调度系统——SLURM Performance: It can accept 1,000 job submissions per second and fully execute 500 simple jobs per second Fault Tolerant Free and Open Source Scalability Power Management Resizable Jobs ……
高性能计算平台 控制节点冗余 网络 统计信息 数据库集群 用户信息管理 资源(32个节点) 计算能力(linpack) 节点之间通过IB网络进行数据传输 统计信息 数据库集群 用户信息管理 LDAP,支持统一认证 资源(32个节点) 896 Cores,4TB Memory 计算能力(linpack) 29891.7Gflops(理论值34406.4Gflops) 效率:86.87%
数据库集群 需求 MariaDB 分支(5.6.31) 稳定,可扩展,读写分离 实验元数据信息,web应用,HPC计算集群,云计算平台 对MySQL做了较多优化,完全与mysql兼容 支持Innodb和XtraDB等多种存储引擎 Keepalived+mysql双主来实现MySQL-HA 使用SSD存储设备,保证读写的速度 提供只读的slave服务器,保证数据的安全性
公共软件库——CVMFS CernVM File System (CernVM-FS) Stratum0 Stratum1 csns-stratum0 ihep-stratum1
运维与监控 Forman + puppet Ganglia OpenDCIM gitlab ELK Stack Zabbix ganglia Ganglia: HPC
提 纲 资源需求 计算环境现状 研究工作 总结
基于docker的弹性作业系统
基于docker的弹性作业系统 方案1 方案2 LBNL:Shifter Linux Containers for HPC Mesos Zookeeper Marathon Docker
提 纲 资源需求 计算环境现状 研究工作 总结
总结 CSNS用户的资源需求调研工作已经完成; CSNS计算环境作为高能所计算环境的子站点运行(HPC、虚拟化集群/云等)
李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都 谢 谢! 李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都