李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海

Slides:



Advertisements
Similar presentations
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
Advertisements

颐高集团项目中心 海亮地产开发模式研究报告. 目 录 目 录 第四部分:海亮地产高周转模式执行 第二部分:海亮地产高周转模式原因 第三部分:海亮地产高周转模式内涵 第一部分:海亮地产企业背景 第五部分:海亮地产高周转支撑体系.
無性生殖是由親代直接產生新的個體,並不涉及配子的生成與結合。
靜坐時身體的反應 反應一:兩腿發麻 會隨著靜坐的工夫而消失 甚至覺得舒服 血管被壓迫 神經被刺激 一般的常識是認為 其實不盡然
辅导老师:隋秀峰 2008年10月22日 Lab3:MPI Programming 辅导老师:隋秀峰 2008年10月22日.
预防接种———— 儿童的保护伞 宝宝的健康是每个父母最关心的事情。近年来随着疫苗的品种越来越多,价格低的数十元,高的数百元,看得家长“云里雾里”,心情极为很矛盾……既担心没打疫苗,宝宝得病,又担心平白无故挨一针。由于种种原因,包括社会、媒体的一些不完全正确的宣传,甚至部分医务人员对疫苗的错误信息,很多家长对是否需要接种二类疫苗不知所措。
第 20 章 檢視系統資訊.
会场事项 会议日程 无线网络 iocasmeeting 8:30-9:45 MPI并行编程基础 周纯葆 11:30-13:00 午餐时间
第五届农业网站发展论坛暨全国农业信息中心主任座谈会
自然的食物就是你最好的醫生 上課之前先聽一首歌~稻香 歌詞、音樂還不錯和大家分享一下
精品开放课程的 建设与应用 谢幼如 教授 广东省高校教育技术中心 华南师范大学教育信息技术学院
Foundations of Computer Science
國有土地管理與運用問題之探討 主講人: 廖 蘇 隆 中華民國100年10月17 日.
怎樣吃才健康? 賴亭竹.
人力资源管理 human resource management
做好就业与自主创业的准备.
系统简介 理财顾问 业务 是基于通信平台的技术优势,整合《理财周刊》、第一理财网、乾隆集团等合作伙伴提供的理财产品内容和权威的理财专家资源,以集中式呼叫中心为主的服务方式,让普通百姓可以享受到快捷、全面、专业、权威的资讯及投资理财的服务平台。
胫腓骨骨折.
第二单元(6-9课) 近代化的探索.
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
第五章 各类园林绿地的规划设计.
新帝國主義開港 (一)臺灣成為侵略者目標 1.背景: A.買賣利豐=鴉片進口+米、糖、樟腦、煤炭出口 B.地理位置優越=航行安全+商貿中心 2.新帝國主義: A.19C中:英、法、美、日為主 B.臺被迫開港通商,割地賠款,簽訂不平等條約.
三餐煮飯佬蕃薯、傍係鹹菜佬菜脯, 日子過得實在艱苦。 頭擺頭擺有一介細阿妹, 按到「梅英姐」,屋下當苦,
预防接种———— 儿童的保护伞 宝宝的健康是每个父母最关心的事情。近年来随着疫苗的品种越来越多,价格低的数十元,高的数百元,看得家长“云里雾里”,心情极为很矛盾……既担心没打疫苗,宝宝得病,又担心平白无故挨一针。由于种种原因,包括社会、媒体的一些不完全正确的宣传,甚至部分医务人员对疫苗的错误信息,很多家长对是否需要接种二类疫苗不知所措。
香港普通話研習社科技創意小學 周順強老師.
淡江大學 航空太空工程學系 工程科技教育 國際認證 期中審查報告簡報
宦官那些事儿 宦官那些事儿 主讲:小学部李永善 主讲:小学部李永善.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
預計102年1月1日上線 更名為 計畫助理人員管理系統
Network Storage and System Virtualization Technology
电视教育课 【5】 小学生行为习惯养成教育.
2012届(数计院) 企业人事管理系统 ——指导老师: 学生:.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
人力资源管理 human resource management
宁波爱地房产市场年报 郊五区
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
何娜 求职经验交流 何娜
妈妈我爱你 你总说我还不懂事 维护我像一张白纸 你眼中我永远是长不大的孩子 虽然我有好多心事 却已不愿说与你知 我曾任性地排斥你爱我的方式
《保險代理手冊》.
YARN & MapReduce 2.0 Boyu Diao
崔涛,高能所云计算组 高能所计算中心 十八届全国科学计算与信息化会议 Openstack培训及操作 崔涛,高能所云计算组 高能所计算中心.
NEC Express5800 Fault Tolerant Server Introduction
第 19 章 檔案系統與 權限設定.
SmartCMP 混合云管理方案 毛得辉 CloudChef 联合创始人&售前总监.
GlusterFS培训 中科院高能物理研究所计算中心 李海波
高效能運算服務 (High Performance Computing) 建置之經驗分享
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
第8章作業系統.
面向高能所信息化系统的高可用数据库服务 王丽 计算中心 中科院高能所 第十八届全国科学计算与信息化会议.
第二章 行程管理 朱肇明 資管系 講師 大華技術學院.
曙光信息产业(北京)有限公司 技术支持中心 戴荣 2007年12月
第十五章 Linked List, Stack and Queue
曙光集群简明使用手册 技术支持中心.
李恒锐 北京景行锐创软件有限公司 2017年6月 西北农林科技大学 超算系统现状和调度系统使用 讲解 李恒锐 北京景行锐创软件有限公司 2017年6月.
基于SDN架构的高能物理数据传输虚拟专用网络研究与建设 For HEP Data
High Performance Computing Service in NTUCC
第3章 認識處理元.
MUON束流物理实验 袁野
2008能源與科技論壇暨研討會 自主型二足機器人之研製 鄭暉騰 倪世銓 李明哲 黃加慶 王仲淳 元智大學電機研究所
网格计算 计算中心 张晓梅 伍文静.
百万亿次超级计算机诞生记 姓名 Xiangyu Ye 职务 微软中国技术中心资深HPC顾问 公司 微软中国
保變住開發要點 資料來源:台北市政府都發局.
作業系統概論 授課老師: 羅習五.
云计算在高能物理实验 分布式计算的结合应用
中国区部分高性能计算行业用户名单 中石油北京勘探开发 研究院 中海油南方基地 中石化物探研究院 中石油东方物探(BGP) 中科院数学所
ADX series Configuration
作業系統概論 授課老師: 羅習五.
2015年度中科院超级计算环境青岛分中心培训 中科院超算中心 中科院海洋所超算中心
96 教育部專案補助計畫案明細 單位 系所 教育部補助款 學校配合款 工作໨目 計畫主 持人 備註 設備費 業務費 579,000
Presentation transcript:

李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海 CSNS高性能计算环境 设计与实现 李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海

CSNS简介 中国散裂中子源是研究中子特性、探测物质微观结构和运动的科研装置的大科学装置,是位于国际前沿的多学科应用的大型研究平台。 预计2018年3月完成验收,第一期建设3台谱仪,规划建设20台谱仪 基于CSNS的实际计算和存储需求,建设了东莞数据中心

提 纲 计算需求 HPC设计与实现 研究工作 总结与展望

计算需求 云计算平台 高性能计算平台 20台谱仪 3台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大 实验用户需要400 核CPU,2T 内存 所内用户需要200核,1TB内存 高性能计算平台 同时支持HPC和HTC 提供MPI并行计算环境 支持GPU计算 1000核CPU,4TB内存 20台谱仪 当前需要的资源量 * 7, 随着用户的增多,资源需求越大

提 纲 计算需求 HPC的设计与实现 研究工作 总结与展望

开源批处理作业系统 Torque/Maui HTCondor Slurm 社区支持 只支持torque,Maui不再支持 活跃 文档支持   Torque/Maui HTCondor Slurm 社区支持 只支持torque,Maui不再支持 活跃 文档支持 Torque较好,maui文档较差 好 HA 不支持 central manager & job queue failover head node failover IPv6支持 no yes, with limitations 队列支持 支持 稳定性 低 高 作业上限  6000+ 18000+ 应用场景 HTC/HPC HTC 对云平台的支持 OpenNebula OpenStack 无 安装 简单 配置 支持puppet 不支持puppet 并行作业支持 一般 不支持跨节点 好,尤其对MPI的支持最好 PBS是功能最为齐全,历史最悠久,支持最广泛的本地资源管理器之一。 PBS的目前版本包括openPBS,PBS Pro和Torque三个主要分支。 其中OpenPBS是最早的PBS系统,目前已经没有太多后续开发,PBS pro是PBS的商业版本,功能最为丰富。Torque是Adaptive Computing Enterprises Inc.(2009年前公司名字是Cluster Resources Inc. )接过了OpenPBS,并给与后续支持的一个开源版本。 OpenPBS的开源版本,很好的社区和文档支持,支持队列,同时支持HPC和HTC 缺点:新版本当作业量超过6000时,出现不稳定的现象,MAUI已经停止更新,作业管理节点不支持HA

Simple Linux Utility for Resource Management SLURM简介 Simple Linux Utility for Resource Management 同时也是 job scheduler 社区和文档支持 同时支持HPC和HTC,对MPI并行计算支持最好 支持GPU计算 Able to process tens of thousands of jobs per hour High throughput for smaller jobs (accepts up to 1,000 jobs per second)

Six of the top ten supercomputers were using SLURM 作业提交方式 交互式 srun 脚本模式 sbatch 分配模式 salloc Six of the top ten supercomputers were using SLURM

基于slurm的高性能计算平台

高性能计算平台 登录集群 用户管理与认证 网络互联 存储系统与软件库 运维与监控 性能测试

登录集群 负载均衡与登录节点 Keepalived + LVS LVS工作模式 调度算法 统一的登录入口 软件编译 作业提交 DR模式(Direct routing) 调度算法 WRR(Weighted Round-Robin Scheduling) 登录集群是HPC联系外部网络的纽带。用户需要通过登录集群来完成用户的登录以及上传应用数据,开发编译程序,提交调度任务 加权轮询调度,它将依据不同RS的权值分配任务。权值较高的RS将优先获得任务,并且分配到的连接数将比权值低的RS更多。相同权值的RS得到相同数目的连接数。 LVS的三种工作模式: VS/NAT模式(Network address translation) VS/TUN模式(tunneling) DR模式(Direct routing)

用户管理与认证 用户管理 统一认证 配置 NIS LDAP 高能所统一认证系统 Nsswitch.conf Nslcd.conf 在Linux系统中的作用 uid linux系统用户名 uidNumber 用户名对应的uid号码 gidNumber 用户所属组的gid号码 loginShell 用户所使用的shell种类 homeDirectory 用户家目录 用户管理 NIS LDAP 统一认证 高能所统一认证系统 配置 Nsswitch.conf Nslcd.conf System-auth-ac/passwd-auth-ac Ldap.conf Nsswitch.conf :服务搜索顺序配置文件,加入ldap保证系统搜索ldap目录获取信息。 Nslcd.conf: Ldap信息对应配置文件,定义搜索ldap树的位置,并将ldap条目中所需的属性对应成Linux系统账户认证所需属性,如将ldap中自定义的userName属性对应为linux中的uid属性供系统识别。 System-auth-ac/passwd-auth-ac: 定义在登录linux系统或切换用户时使用到的认证模块,加入ldap表示使用ldap信息来认证。 Ldap.conf: 设置ldap远端服务器配置,从服务器中获取数据信息 Ldap组属性 在Linux系统中的作用 cn linux系统组名 gidNumber 用户所属组的gid号码 memberUid 属于该组的用户列表

网络互联 管理网络 存储网络 计算网络 服务器管理 分布式文件系统与集群的数据交换 高带宽 (56Gbps) – 扩展空间很大 低延迟(<0.5usec) – 机群中跨节点应用程序间的快速反应. 低的CPU占用及RDMA (远程直接内存访问) – 打破以太网的CPU和操作系统介入通讯.

存储系统 Glusterfs分布式文件系统 通过gluster原生协议挂载到每个节点 性能测试 实验数据 用户home目录 1M,640GB,8 process Read:1GB/sec,Write:500MB/sec

公共软件库——CVMFS CernVM File System (CernVM-FS) Stratum0 Stratum1 csns-stratum0 ihep-stratum1

运维与监控 Slurm-web Ganglia ELK Stack Zabbix Ganglia: HPC

高性能计算平台——性能测试 计算资源(32个节点) 896 Cores 4TB Memory

提 纲 计算需求 HPC的设计与实现 研究工作 总结与展望

基于docker的弹性作业系统

基于docker的弹性作业系统 方案1 方案2 LBNL:Shifter Linux Containers for HPC Mesos Zookeeper Marathon Docker

提 纲 资源需求 HPC的设计与实现 研究工作 总结与展望

总结与展望 CSNS高性能计算环境建设完成并且已经初步运行; 使用linpack测试的性能符合建设要求,但还有优化空间; 下一阶段将增加GPU计算节点; 希望能得到更多同事和专家的指导意见。

李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海 谢 谢! 李亚康,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海