Download presentation
Presentation is loading. Please wait.
1
武汉测地所 现场集群环境介绍 TC3600刀片服务器产品 扩展方案讨论
2
集群总体情况
3
曙光刀片系统 7U 热插拔硬盘 Intel 刀片 AMD 四路刀片 AMD双路刀片
4
TC2600刀片主要组成部分(续) 网络模块1 网络模块2 IB交换模块 主管理模块 从管理模块 IOE扩展模块 (含热插拔风扇) 电源模块
5
计算节点 计算刀片CB85-F (8台) 4颗AMD Opteron8474HE(2.2G)四核处理器/ 32GB DDR2 ECC内存/
160GB SATA磁盘/ 双千兆网卡 计算刀片CB60-G (6台) 2*INTEL5520(2.26G) 四核处理器/ 16GB DDR3内存/ 146GB SAS热插拔磁盘/
6
I/O节点和管理节点 I/O节点CB60-G (1台) 2*INTEL5520(2.26G) 四核处理器/ 16GB DDR3内存/
2*146GB SAS热插拔磁盘/ 双千兆网卡 管理节点CB60-G (1台) 如上!
7
SMP节点 曙光天阔A950R-F(适用于大内存作业) 8颗AMD 8380(2.5G)四核/ 32*4GDDR2 ECC内存/
2*146GB HS 15K RPM SAS硬盘/ SAS Raid卡/ 2*1000M网卡 / HCA卡HCA500Ex-D-1/ 3+1冗余电源/ 上架导轨
8
共享存储 曙光DS-6310FE 3U机架式,Intel IOP GHz处理器,标配512MB,可选1GB、2GB,支持0,1,1E,5,6,50,60 , 2个4Gb FC主机通道,1个SAS 4x扩展接口,基于Web的嵌入式管理软件 硬盘 1TBSATA硬盘(总容量16TB)
9
网络 计算网络 双向带宽20G的高速计算专用网络 (刀片内置) 管理网络 千兆以太网(刀片内置)
10
机柜和视频切换系统 曙光TC4000机柜/42U/内部网络布线系统/60×200×110cm(宽×高×深), 套 1
3*20A,支持2相、3相电,支持5个航空插头、电源检测模块、电源负载均衡、3*20A外接电源线 套 1
11
外置控制台 曙光17”液晶显示器、鼠标、键盘 SKVM视频切换系统 USTS(与CIM配合使用,最大支持98个CIM) (节点I/O模块,每节点一个) 集群安全模块TLFW-1000D 全面安全功能,并发连接数120万,吞吐量1.2G,VPN隧道数1000
12
集群的软件部署 Linux操作系统 Suse10 LINUX64位企业级操作系统 GRIDVIEW集群管理软件
高性能计算集群管理系统、支持跨广域网作业调度,支持交换机、存储、和机房环境管理;节点硬件和运行状态的统一管理、监控功能;作业调度系统和计费系统
13
用户视图 计算结点 WEB Portal Integrated App Job Scripts 登录结点 作业递交 作业返回
Lustre/SAN WEB Portal Integrated App Scripts Job 1 2 3 作业递交 作业返回
14
大型机管理系统Gridview 应用于单机、机群和机群之上,实现局域网内部及跨广域网环境对大型机进行集中部署、配置、监控、管理、告警、报表、 IPMI、作业调度等功能
15
物理机柜视图 网络拓扑视图 大型机地图视图 性能分析视图
16
告警统计报表 历史告警管理 实时告警管理 告警关联分析
17
报表 记录数日增量报表 表空间日增量报表
18
并行计算环境 操作系统 函数库 编译器: 并行环境: 正版Suse Linux企业版 BLAS、GOTO、LAPACK、FFTW
Intel C/C++ Compiler、 Intel Fortran 77/90 Compiler PGI 7.1.4 GNU 并行环境: OpenMPI MPICH PVM
19
集群信息 version Linux node smp #1 SMP Tue May 6 12:41:02 UTC 2008 x86_64 x86_64 x86_64 GNU/ node10:/ # ifort -v Version 10.1 node10:/ # icc -v node10:/ # pgcc -V pgcc bit target on x86-64 Linux -tp nehalem-64 Copyright , The Portland Group, Inc. All Rights Reserved. Copyright , STMicroelectronics, Inc. All Rights Reserved. NFS配置: node9:/public % /public
20
集群的测试 Linpack现在在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机,用高斯消元法求解一元N次稠密线性代数方程组的测试,评价高性能计算机的浮点性能。 本套集群测试路径: /public/backup/software/hpl-2.0/bin/yzhen 测试命令: /public/mpi/openmpi/1.3.3/intel/bin/mpirun --mca btl openib,self -np 200 -hostfile ./nodes ./xhpl 输出结果: /public/backup/software/hpl-2.0/bin/yzhen HPL.out
21
序号 N NB P Q Time Gflops 1 160000 232 10 20 1.048e+03 2 1.043e+03 结论 测试过程使用了16台计算节点,除管理节点外,其他都参与了计算,共计200个计算内核,总计内存消耗160G 浮点性能1.048Tflops,达到70%浮点性能要求。 测试人/日期 袁 甄
22
集群系统(管理员) 开机顺序 关机顺序: 1 I/O节点 2 管理节点 3 计算节点 1 计算节点 3 I/O节点 配置网络 Yast2
修改 vi /etc/sysconfig/network/ifcfg-eth-bus-pci-0000:05:00.0文件 重启网络/etc/init.d/network restart或service network restart
23
集群系统(管理员) 添加一个新用户
24
Thank You!
Similar presentations