李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海 CSNS高性能计算环境 设计与实现 李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
CSNS简介 中国散裂中子源是研究中子特性、探测物质微观结构和运动的科研装置的大科学装置,是位于国际前沿的多学科应用的大型研究平台。 预计2018年3月完成验收,第一期建设3台谱仪,规划建设20台谱仪 基于CSNS的实际计算和存储需求,建设了东莞数据中心
提 纲 计算需求 HPC设计与实现 研究工作 总结与展望
计算需求 云计算平台 高性能计算平台 20台谱仪 3台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大 实验用户需要400 核CPU,2T 内存 所内用户需要200核,1TB内存 高性能计算平台 同时支持HPC和HTC 提供MPI并行计算环境 支持GPU计算 1000核CPU,4TB内存 20台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大
提 纲 计算需求 HPC的设计与实现 研究工作 总结与展望
开源批处理作业系统 Torque/Maui HTCondor Slurm 社区支持 只支持torque,Maui不再支持 活跃 文档支持 Torque/Maui HTCondor Slurm 社区支持 只支持torque,Maui不再支持 活跃 文档支持 Torque较好,maui文档较差 好 HA 不支持 central manager & job queue failover head node failover IPv6支持 no yes, with limitations 队列支持 支持 稳定性 低 高 作业上限 6000+ 18000+ 应用场景 HTC/HPC HTC 对云平台的支持 OpenNebula OpenStack 无 安装 简单 配置 支持puppet 不支持puppet 并行作业支持 一般 不支持跨节点 好,尤其对MPI的支持最好 PBS是功能最为齐全,历史最悠久,支持最广泛的本地资源管理器之一。 PBS的目前版本包括openPBS,PBS Pro和Torque三个主要分支。 其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Adaptive Computing Enterprises Inc.(2009年前公司名字是Cluster Resources Inc. )接过了OpenPBS,并给与后续支持的一个开源版本。 OpenPBS的开源版本,很好的社区和文档支持,支持队列,同时支持HPC和HTC 缺点:新版本当作业量超过6000时,出现不稳定的现象,MAUI已经停止更新,作业管理节点不支持HA
Simple Linux Utility for Resource Management SLURM简介 Simple Linux Utility for Resource Management 同时也是 job scheduler 社区和文档支持 同时支持HPC和HTC,对MPI并行计算支持最好 支持GPU计算 Able to process tens of thousands of jobs per hour High throughput for smaller jobs (accepts up to 1,000 jobs per second)
Six of the top ten supercomputers were using SLURM 作业提交方式 交互式 srun 脚本模式 sbatch 分配模式 salloc Six of the top ten supercomputers were using SLURM
基于slurm的高性能计算平台
高性能计算平台 登录集群 用户管理与认证 网络互联 存储系统与软件库 运维与监控 性能测试
登录集群 负载均衡与登录节点 Keepalived + LVS LVS工作模式 调度算法 统一的登录入口 软件编译 作业提交 DR模式(Direct routing) 调度算法 WRR(Weighted Round-Robin Scheduling) 登录集群是HPC联系外部网络的纽带。用户需要通过登录集群来完成用户的登录以及上传应用数据,开发编译程序,提交调度任务 加权轮询调度,它将依据不同RS的权值分配任务。权值较高的RS将优先获得任务,并且分配到的连接数将比权值低的RS更多。相同权值的RS得到相同数目的连接数。 LVS的三种工作模式: VS/NAT模式(Network address translation) VS/TUN模式(tunneling) DR模式(Direct routing)
用户管理与认证 用户管理 统一认证 配置 NIS LDAP 高能所统一认证系统 Nsswitch.conf Nslcd.conf 在Linux系统中的作用 uid linux系统用户名 uidNumber 用户名对应的uid号码 gidNumber 用户所属组的gid号码 loginShell 用户所使用的shell种类 homeDirectory 用户家目录 用户管理 NIS LDAP 统一认证 高能所统一认证系统 配置 Nsswitch.conf Nslcd.conf System-auth-ac/passwd-auth-ac Ldap.conf Nsswitch.conf :服务搜索顺序配置文件,加入ldap保证系统搜索ldap目录获取信息。 Nslcd.conf: Ldap信息对应配置文件,定义搜索ldap树的位置,并将ldap条目中所需的属性对应成Linux系统账户认证所需属性,如将ldap中自定义的userName属性对应为linux中的uid属性供系统识别。 System-auth-ac/passwd-auth-ac: 定义在登录linux系统或切换用户时使用到的认证模块,加入ldap表示使用ldap信息来认证。 Ldap.conf: 设置ldap远端服务器配置,从服务器中获取数据信息 Ldap组属性 在Linux系统中的作用 cn linux系统组名 gidNumber 用户所属组的gid号码 memberUid 属于该组的用户列表
网络互联 管理网络 存储网络 计算网络 服务器管理 分布式文件系统与集群的数据交换 高带宽 (56Gbps) – 扩展空间很大 低延迟(<0.5usec) – 机群中跨节点应用程序间的快速反应. 低的CPU占用及RDMA (远程直接内存访问) – 打破以太网的CPU和操作系统介入通讯.
存储系统 Glusterfs分布式文件系统 通过gluster原生协议挂载到每个节点 性能测试 实验数据 用户home目录 1M,640GB,8 process Read:1GB/sec,Write:500MB/sec
公共软件库——CVMFS CernVM File System (CernVM-FS) Stratum0 Stratum1 csns-stratum0 ihep-stratum1
运维与监控 Slurm-web Ganglia ELK Stack Zabbix Ganglia: HPC
高性能计算平台——性能测试 计算资源(32个节点) 896 Cores 4TB Memory
提 纲 计算需求 HPC的设计与实现 研究工作 总结与展望
基于docker的弹性作业系统
基于docker的弹性作业系统 方案1 方案2 LBNL:Shifter Linux Containers for HPC Mesos Zookeeper Marathon Docker
提 纲 资源需求 HPC的设计与实现 研究工作 总结与展望
总结与展望 CSNS高性能计算环境建设完成并且已经初步运行; 使用linpack测试的性能符合建设要求,但还有优化空间; 下一阶段将增加GPU计算节点; 希望能得到更多同事和专家的指导意见。
李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海 谢 谢! 李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海