周立旸 IBM中国有限公司 网格与虚拟化解决方案 zhouly@cn.ibm.com IBM Cluster 1350 周立旸 IBM中国有限公司 网格与虚拟化解决方案 zhouly@cn.ibm.com
摩尔定律的终结?
计算成本的不断降低 $1000 可以购买的计算能力 Computations / sec Year after Kurzweil, 1999 & Moravec, 1998 1900 1920 1940 1960 1980 2000 2020 Mechanical Electro-mechanical Vacuum tube Discrete transistor Integrated circuit Year 1,000,000,000,000 1,000,000,000 1,000,000 1,000 1 0.001 0.000001 Computations / sec
Linux 集群的优势 卓越的性能/价格比 易于水平扩展 新技术的 成熟性和可用性 管理可增长的系统 人员技能 应用支持
IBM 是高性能计算和Linux集群市场的领导者 Semiannual independent ranking of top 500 supercomputers in the world 在 TOP500 中占绝对领先地位 ... #1– DOE - BlueGene/L 原型 (136.8 TF) 总共 259 套系统来自IBM (51.8%)! 总聚合计算能力达到 976 teraflops (57.9%)! 6 套位于前10名 (60%)! 10 套位于前20名 (50%)! 58 套位于前100名 (58%)! 总计304套Linux集群中占193套 (63.4%)! Source: www.top500.org
IBM Cluster 1350 的组成 硬件 丰富的节点选择:IBM xSeries® 336 and 346, IBM ~ 326 和 IBM刀片服务器 ~ HS20 和 JS20 集群网络连接选件:千兆以太网、Myrinet™, Topspin® InfiniBand 和 Voltaire® InfiniBand IBM 存储服务器:DS300, DS400, DS4100, DS4300, DS4300 Turbo, DS4400, DS4500 标准化机柜:11U, 25U 或42U 软件 Red Hat Enterprise Linux (RHEL) 3.0 SUSE LINUX Enterprise Server 9 (SLES 9) IBM Cluster Systems Management for Linux (CSM) V1.4.0.11 (可选) IBM General Parallel File System for Linux (GPFS) V2.3 (可选) 服务 硬件安装与集成 一门式的保修服务 (IBM 和 OEM 选件) Linux 集群软件安装 Linux 集群技术支持
1350 逻辑网络架构
Cluster 1350 节点的选择 ~ HS20 刀片服务器 xSeries 336 ~ JS20 刀片服务器 xSeries 346 高可管理性的 机架式服务器 8 根RDIMM插槽支持最大16GB内存 2 个热拔插 SCSI 硬盘 支持双 Xeon™ 处理器 集成系统管理 1U ~ HS20 刀片服务器 模块化的高性能计算 ~ JS20 刀片服务器 支持双 Xeon ™ 处理器 每个刀片中心可安装14 片刀片 每片刀片支持最多8GB内存 集成系统管理模块 7U 机箱 xSeries 346 高可用性服务器 ~ 326 高性能机架式服务器 基于PowerPC 的刀片服务器 采用双路 2.2GHz PPC 970 芯片 每个刀片最大 4GB 内存 双IDE 硬盘 支持安装2个子卡 (以太网、光纤通道等) 支持双 Opteron™ 处理器 支持最大16GB内存 集成系统管理 1U 2 个热拔插 SCSI 或SATA硬盘 支持双 Xeon™ 处理器 支持最大16GB内存 集成系统管理 2U 6 个热拔插 SCSI 硬盘
刀片服务器提供了高密度的Linux集群平台 可以包含: - 84 片刀片 - 168 个处理器 - 336GB 内存 - 6.7TB 存储 IBM 42U Rack 7U BladeCenter 最高每个机柜 1.5 TFLOP 可以混合 JS20, HS20 和 HS40
基于Intel Xeon芯片的BladeCenter HS20服务器 IBM是第一个推出支持 EM64T技术刀片的厂商 与533MHz前端总线的Xeon相比,性能有了很大提高 提供丰富的选件产品 支持集成的网络与存储连结,如Cisco, Nortel, Brocade等等 专用的系统管理模块 通过局域网提供并发串口支持 支持多种操作系统,包括64位平台 支持Ultra320 SCSI硬盘,带宽达到320MB/s,是传统Ultra160 (Ultra3) SCSI的两倍 HS20 2-way Xeon
基于POWER4芯片的64位BladeCenter JS20服务器 两个来自 POWER4 架构的 1.6GHz 或 2.2GHz PowerPC 970 处理器 VMX 能够提供更高的密集型计算性能 支持AIX 5.2, SuSE SLES8, RHEL 3 支持IBM Director与CSM 单个机箱支持多种异构平台 PowerPC 970 特性 130 纳米(0.13 微米) 绝缘硅 8 路超标量设计,每时钟周期发出 8 个指令 –每周期 4 个浮点 具有160 多个专门向量指令的向量处理单元 JS20 POWER-based
共享的基础架构 Hot-swap media tray - Diskette drive Resource sharing allows: Up to four hot-swap 1800/2000 watt Power Modules Up to eight Ethernet ports Hot-swap media tray - Diskette drive - CD-ROM/DVD Up to four Fibre Channel ports Single management console IBM Resource sharing allows: - Power and cooling savings - Floor space savings - Lower purchase prices (function not duplicated) - Quick scale-out of performance, capacity - Efficient management from single console Two hot-swap blowers
BladeCenter 前视图 Hot-swap media tray Chassis shared redundant modules - CD-ROM/DVD - Diskette drive Chassis shared redundant modules - 1800/2000 watt Power Modules - Blower Modules - Switch Modules - Management Modules Dual blade connections to standard and redundant middle planes providing access to redundant power, switches, and management modules USB port Standard System LED panel with duplicate one on back side IBM Redundant Mid-Plane - Interface between blades and shared feature modules Chassis blade housing for blades
and provide redundancy for optional redundancy BladeCenter 后视图 Hot-swap 1800/2000 watt 220 V ac Power Modules 3 and 4 for blades 7 to 14 Hot-swap 1800/2000 watt 220 V ac Power Modules 1 and 2 for blades 1 to 6 Hot-swap Management Module 1 10/100 Ethernet (Serial over LAN) for Management Module connection to network Hot-swap Ethernet Switch Module – bay 1 provides: - 4-port 1 Gbps Ethernet - 2 internal 10/100 Mbps links to the Management Modules - 14, 1 Gbps links to the blades An additional or redundant Ethernet Switch Module may be installed in bay 2 … : : Console IB : : … ThinkVision O O O O … : : : : … Hot-swap Fibre Channel Switch Module – bay 3 provides: - 2 FC ports - 1 or 2 Gbps per port Requires expansion card in each blade that requires Fibre Channel An additional or redundant Fibre Channel Switch Module may be installed in bay 4 Console select supported for HS20/HS40 blades only Hot-swap blower 1 and blower 2 are standard and provide redundancy Hot-swap Management Module 2 for optional redundancy Same system LEDs as on the front
共享冗余电源 1 3 2 middle plane 4 1800/2000 watt Power Modules Redundant middle plane Blades 1 through 6 Blades 7 through 14
系统冷却模块 Two Curved Impeller Blowers Acoustic Attenuation Module Capable of 325 Cubic Feet Per Minute (CFM) each 150 CFM each in standard operation Hot Swap, Redundant Predictive blower failure by monitoring the blower RPM Back flow dampers (louvres) Fan speed control Acoustic Attenuation Module Noise Reduction for acoustically sensitive (or regulatory) environments
系统管理模块 (MM) Service Processor Hot Swap Interfaces via midplane 10/100Mb Ethernet KVM not supported on JS20 RS-485 interface I2C interfaces (serial interconnect daisy chain technology used for hardware level functions) Optional redundant Management Module
BladeCenter Chassis Rear View 网络交换模块配置 BladeCenter Chassis Rear View SM BAY 3 & 4 SM BAY 1 & 2 L2-7 Gb Ethernet (Nortel ESM) L2 Gb Ethernet (IBM ESM) SM 3 SM 1 PS 3 M 1 BLOWER 1 PS 1 Cisco Gb Ethernet Switch (IBM GESM) L2-7 Gb Ethernet (Nortel ESM) Fiber Channel (IBM FCSM) Cisco Gb Ethernet Switch (IBM GESM) SM 4 SM 2 PS 4 M 2 BLOWER 2 PS 2 OPM OPM CPM CPM
InfiniBand 优势 Traditional Model RDMA Kernel Bypass Model Application User User Sockets Layer Sockets Layer Kernel Kernel User Space Access (e.g. MPI, uDAPL) SDP TCP/IP Transport TCP/IP Transport IB Driver (Verbs i/f) IPoIB Driver RDMA i/f Hardware Hardware
IBM 先进连接技术 (ACT) 较低成本、功能强大的连接机柜服务器的KVM备选方案 减少线缆数量和混乱,同时简化安装 庞大、笨重的KVM 线缆被小巧、灵活的 CAT5 线缆所代替 允许客户定制生产他们独特的部署需要的线缆长度 服务器管理的标准构件方法,卓越的传统系统兼容性 使用可以支持高可扩展性的组件 CAT5 转换选件可以馈入到: 用于本地管理 (LCM)的便宜的 CAT5 控制台交换机 面向大型配置或远程管理的远程控制台管理 (RCM) 与传统产品的向后兼容 投资保护,设计提供无限的可扩展性 LCM & RCM 采用直观的屏幕显示,使设置和管理更简单 无论您使用那种产品组件,提供直观的屏幕显示
IBM高性能计算集群软件环境 功能模块 软件 来源 说明 操作系统 SUSE LINUX Enterprise Server 9 Red Hat Enterprise Linux 3.0 Red Hat 集群管理 CSM 或 xCAT IBM Director IBM xCAT和CSM可以互相转换 文件系统 General Parallel File System (GPFS) NFS open source 资源管理和调度 TORQUE / Maui Scheduler 提供多种调度器接口 Loadleveler 支持Linux和AIX 编译器 PGI Fortran 77/90; C/C++ STM Portland Group 32/64-bit support Intel Fortran/C/C++ Intel GCC 数学库 Intel® Integrated Performance Primitives Intel® Math Kernel Library Intel® Cluster Math Kernel Library IMSL™, PV-WAVE® Visual Numerics 并行库 MPICH TCP/IP networks MPIC-GM Myricom Myrinet networks
IBM集群系统管理的三大利器 Cluster Systems Management IBM Director 提供命令行界面(在AIX上支持GUI) 同时支持AIX和Linux 面向高性能计算应用 IBM Director 基于来自Windows平台的技术 图形界面为主,命令行为辅 同时支持Windows和Linux 通用的分布式系统管理 Extreme Cluster Administration Toolkit 基于Linux脚本的系统管理工具 充分利用x系列服务器管理功能 IBM用户可以免费下载 只支持Linux,可以和CSM互相转换 面向高性能计算应用
Cluster Systems Management - CSM 被管理节点 - 指集群中所有节点 安装和维护各节点上的软件 自动的安全配置 执行分布式命令 在集群中管理和同步文件 系统监控和自动应答 硬件控制 (如远程开关机/重启等) 对节点分组进行监控管理 诊断工具 管理服务器 - 可以通过单一的 控制点,对整个系统进行操作、 维护和监控 同时支持AIX和Linux
Extreme Cluster Administration Toolkit - xCAT 全面利用IBM xSeries 服务器服务处理器功能 远程电源控制(开/关/状态) 远程软/硬件复位 远程 OS/POST/BIOS 控制台 远程关键因素(风扇速度/温度等) 远程硬件事件日志 对硬件错误的 SNMP 告警 并行自动化网络安装 自动节点发现 支持多个映像/节点类型 全局/组/节点的独特支持 支持 rpm 或 tarball 包安装 安装后脚本 集中引导控制 xCAT 有助于编译、安装及配置 HPC 软件栈: MPICH-GM / MPICH-IP 完全自动化所有节点上的PBS设置 预先编写的脚本 安装和配置Maui 调度程序 PVM, SSH 等
IBM Director 要点 IBM Director 4.20 新增加的功能 “IBM卓越的 Director网管 软件给我们 大受欢迎的工作组管理软件 集成工具提供单点系统管理功能 自动化功能如硬件发现和配置、系统监控和报警、系统维护和升级、软件部署等 可以和企业级的系统管理软件无缝集成,如Tivoli, OpenView, UniCenter等 IBM Director 4.20 新增加的功能 结合IBM Virtualization Engine,提供跨异构系统的管理 支持Linux系统的健康诊断功能 自动注册功能可以提供最新的产品更新 提供Server Plus Pack,优化系统 并提高可用性 “IBM卓越的 Director网管 软件给我们 留下了极其 深刻的印象,它可以从集中的管理界面管理远程系统.” PC Magazine, 5/26/04
Cluster 1350 小结 标准的Cluster 1350包括 网络 1到2个管理节点 2个到1024个计算节点 0到64个可选的存储节点 所有节点运行Linux操作系统 网络 管理网络 节点内部的管理数据 集群网络 应用数据 可选的高速网络连接 Myrinet Infiniband