高性能计算的现状和发展 解决方案中心 高性能计算方案部
目录 高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流解决方案介绍 4 高性能计算的新技术介绍
什么是高性能计算? 高性能计算 HPC:High Performance Compute 高性能计算---并行计算 并行计算(Parallel Computing) 高端计算(High-end Parallel Computing) 高性能计算(High Performance Computing) 超级计算(Super Computing)
在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。 高性能计算的重要性 “进入21世纪以来,计算方法与分子模拟、虚拟实验,已经继实验方法、理论方法之后,成为第三个重要的科学方法,对未来科学与技术的发展,将起着越来越重要的作用。” ——徐光宪 院 士 在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。 近年来计算机软、硬件飞速发展,理论模拟研究渐趋普及,分子模拟技术现已成为继实验手段、理论推导之后的第三类重要的科研方法。 而另一方面,面对审稿人越来越挑剔的眼光,我们撰文投稿的时候除了实验数据之外,理论模拟的结果也逐渐成了不可或缺的组成部分,在解释实验结果、预测分子性质等方面发挥了重要的辅助作用,令文章内容更加翔实严谨。
Computational R&D is growing in relative importance 高性能计算的重要性 Computational R&D is growing in relative importance 2030 1995 1995: 10 % modeling 90 % experiment 2002 2002: 20 % modeling 80 % experiment 2030: 50 % modeling 50 % experiment
为什么要做高性能计算?--应用的驱动 问题: 科学和工程问题的数值模拟与仿真 人类对计算及性能的要求是无止境的 计算密集 数据密集 网络密集 从系统的角度:集成系统资源,以满足不断增长的对性能和功能的要求 从应用的角度:适当分解应用,以实现更大规模或更细致的计算 问题: 科学和工程问题的数值模拟与仿真 计算密集 数据密集 网络密集 三种混合
高性能的各类应用 为什么要做高性能计算 ——应用需求
高性能计算结构模型
高性能计算架构变化 数据来源:2010 TOP 500 排行榜
高性能计算网络发展 数据来源:2010 TOP 500 排行榜
高性能集群操作系统份额 数据来源:2010 TOP 500 排行榜
衡量高性能系统性能的评价指标 -----理论峰值(FLOPS) 1、如何计算理论峰值: 峰值=主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如:10个AMD双路12核刀片(CPU6174,主频2.2) 总核心数=10×2×12=240 峰值=2.2×240×4=2112GFLOPS=2.1TFLOPS=2.1万亿次。 GPU峰值: 每C2050卡 双精度峰值=0.515TFLOPS 单精度峰值=1.03TFOPS 双精度峰值=0.515* GPGPU卡数目(TFLOPS) 单精度峰值=1.03* GPGPU卡数目(TFLOPS)
衡量高性能系统性能的评价指标 -----实测峰值(FLOPS) HPL(Linpach)测试 ---对系统进行整体计算能力的评价 Linapck测试:采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数(flops)表示。 HPL:针对大规模并行计算系统的测试,其名称为High Performance Linpack (HPL),是第一个标准的公开版本并行Linpack测试软件包, 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相当大的优化空间。
衡量高性能系统性能的评价指标 -----系统效率 衡量高性能系统性能的评价指标 -----系统效率 系统效率=实测峰值/理论峰值 如何提高效率: (1)通过优化网络 (2)通过优化测试程序的编译与设置 (3)通过优化内存的配置与容量 (4)通过优化运行参数及系统参数! 目前:一套通过Infiniband网络互连的集群,效率一般在70%以上。
加速比定律 在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比; 加速比是衡量“并行收益”的重要指标; Amdahl定律适用于固定计算规模的加速比性能描述,Gustafson定律适用于可扩展问题。
Amdahl定律 S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p)) 显然,当p→∞时,S=1/f,即对于固定规模的问题,并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪
Gustafson定律 S‘=(WS+pwp)/(WS+WP) =p-f(p-1)=f+p(1-f) 并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的 加速比与处理器数成斜率为(1-f)的线性关系 这样串行比例f就不再是程序扩展性的瓶颈, 当然,f越低,斜率会越大,加速性能越好。
目录 高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流应用介绍 4 高性能计算的新技术介绍
高性能计算在国内的六大应用领域 六大应用领域 CAE (CFD) 物理化学材料 生命科学 气象环境海洋 石油勘探 图像渲染 计算机辅助工程,广泛应用于工业生产中 CAE (CFD) 基因科学、蛋白质科学的研究以及新药的研发 物质的物理化学材料属性的科研工作中 物理化学材料 生命科学 六大应用领域 石油勘探 气象环境海洋 地震资料处理,用于油气勘探 气象环境海洋的数值预报 图像渲染 动画、电影、图像的高逼真效果制作 其它:卫星图像处理、金融计算等
一CAE仿真介绍 分析的过程: 前处理 后处理 求解 采用各种CAD工具,建立几何模型,划分计算网格 显示计算结果,评估产品性能 指定荷载和边界条件,提交给计算服务器进行分析
CAE仿真介绍 隐式结构力学 显式结构力学 计算流体力学 计算电磁学 声学分析 多体动力学 MSC.NASTRAN MARC ANSYS ABAQUS/Standard ADINA 显式结构力学 LS-DYNA PAM-CRASH DYTRAN ABAQUS/Explicit 多体动力学 ADAMS 计算流体力学 FLUENT STAR-CD/HPC PowerFLOW CFX CFD-Fastran 计算电磁学 FEKO ANSOFT 声学分析 SYSNOISE
二 物理化学材料应用介绍 各种理论模拟方法的适用范围 最大原子数 可计算量 分子力学 2000 ~ 100万 粗略的几何结构 半经验 500 ~ 2000 几何结构(有机分子) HF(DFT) 50 ~ 500 能量(含过渡金属) MP2 20 ~ 50 能量(弱, 氢键) CCSD(T) 10 ~ 20 精确能量(弱作用) CASPT2 < 10 磁性(多个多重度) 为了建立化学模型, 我们首先要了解各种化学模型的精度与适用范围, 这里我们给出了不同理论等级可计算的原子的个数, 以及其可计算与预测的性质. 一般在个人电脑上量子化学能准确计算的大概在不超过200个原子. 而且根据问题不同可计算体系会有很大不同. 目前最精确的计算还只限于几个原子的分子, 比如CASPT2.
二 物理化学材料应用介绍 适合周期体系的计算软件 VASP ABINIT CPMD PWSCF(ESPRESSO) 适合非周期体系的计算软件 GAUSSIAN03 GAMESS-US (PC-GAMESS)
三 生命科学应用介绍 序列搜寻与比对原理 序列搜寻 HIPDWYLAGHIF YIPDWYLAGHIF DFPLAGHIFDWY HIPDWYLAdfFGHIF YIPDWYLAGHIF HGFL--AGHIFAWY--- ------PLAGHIFDWHGH HIPDWYLAGHIF
三 生命科学应用介绍 分子动力学模拟 simulation of an entire ribosome, the cell's protein factory, comprising 3,000,000 atoms when solvated. on an IBM Blue Gene Simulating an Entire Life Form,using coarse-grained molecular dynamics simulations With the Cray XT3 they’ve been able to run efficiently, using software called NAMD, with as many as 1,024 processors. “The XT3 has been amazing,” says Blood. “We haven’t found a hard limit on scaling up the number of processors.”
三 生命科学应用介绍 测序数据处理 准备试剂 仪器测序 数据分析
主流模式分析 四 气象、环境、海洋数值预报应用介绍 气象海洋领域程序模式众多,我们不但要熟悉我们的硬件还要熟悉这些众多的软件的特点以及在不同平台上的性能差异; 气象常用模式:MM5、WRF、GRAPES、AREMS、LAPS、 ARPS、T106等 海洋常用模式:FVCOM、HYCOM、ECOMSED、ECOM、 POP、MOM4、MITgcm、CCSM3,roms等 环境常用模式:CMAQ等
四 气象、环境、海洋数值预报应用介绍 业务系统流程图 28
五 石油勘探应用介绍 油气勘探背景 激发地震波 接收反射波 采集获得地面单炮记录 处理完成地下构造成像 解释完成构造成图和建议井位 钻探确认真伪
五 石油勘探应用介绍 曙光石油勘探计算中心解决方案
六 图像渲染应用介绍 渲染 渲染(Render):作为计算机数字图像(CG)处理中的一道重要工序,经过Render这个程序,我们将模型或者场景输出成图像文件、视频信号或者电影胶片。 这里的渲染有别于3D显示领域的实时(real-time)渲染,而是静态渲染或者离线(off-line)渲染。 所谓渲染农场(Renderfarm)其实就是“分布式并行集群计算系统”,它是一种利用现成的CPU、网络负载和操作系统构建的高性能超级计算机,它使用主流的商业计算机硬件设备达到或接近超级计算机的计算能力。集群(Cluster)指的是一组计算机通过通信协议连接在一起进行同一种服务,在客户端看来就像是只有一个计算机。集群可以利用多个计算机进行并行计算从而获得很高的计算速度,也可以用多个计算机做备份,从而使得任何一个机器坏了整个系统还是能够正常运行。它的目标是使用主流的硬件设备组成网格计算能力,达到、甚至超过超级计算机的计算性能。 有了这样的渲染农场,企业可以用最快的时间看到作品的质量,如果需要修改也不会浪费太多的时间,这样整个作品的渲染和产出都会很轻松的实现,同时不会影响企业里其他项目的进行。例如,800个计算核心的超高计算密度,理论计算峰值7.5万亿次。 一部全CG电影的总渲染时间是很恐怖的。通常2K电影分辨率所需要的渲染时间能被大家接受的大概在每帧1小时左右,而好莱坞主流电影的分辨率在2K、4K,甚至达到了6K或者8K,随着每一阶品质的提高而其渲染时间将是上一品质的4倍。如果场景还涉及到粒子、流体等复杂计算的时候,渲染的速度又会成倍提高,一帧画面的渲染时间可能在10小时以上。
渲染集群应用技术 六 图像渲染应用介绍 主流三维建模软件 常用渲染器 渲染分发管理软件 集群管理系统 存储子系统 其他技术支撑 Maya、3Ds Max、Softimage、Lightwave、Houdini、Cinema 4D等 常用渲染器 Vray,Mental Ray,Maya software, 渲染分发管理软件 Muster、Enfuzion3D、Qube等 集群管理系统 Linux+Gridview、WHS2008等 存储子系统 NAS、SAN、Dawning LoongStore等 其他技术支撑
目录 高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流解决方案介绍 4 高性能计算的新技术介绍
高性能计算机系统架构 系统软件层 基础设施层 IT核心硬件层 存储系统 计算系统 网络系统 操作系统 作业调度软件、管理系统 并行环境 编译器、数学库、MPI 网络 PC机 笔记本 平板电脑 瘦客户端 工作站 应用软件层 生命科学 CAE仿真 功能节点 空调系统 物理化学 气象海洋 配电系统 防雷系统 机房装修 机柜及KVM 石油勘探 动漫渲染 应用 Portal
高性能计算作业的工作流程 机房环境 1 存储系统 2 4 1 5 3 外网 内网 局域网 并行存储系统 防火墙 千兆交换机 路由器 Internet 本地建模 1 并行存储系统 登陆/管理节点 存储系统 算例上传 作业提交 2 数据访问与存储 4 远程控制 以太网 交换机 本地建模 1 高速Inifiniband交换机 系统管理与用户管理 5 以太网 计算系统 101100011010100100010010010010011000110101001000100100110001101010010001001001100011010100100010010000100100110001101010000100100110001101010000100100110001101010000100100110001101010 Infiniband网 刀片集群 本地KVM 控制台 光纤网 作业运行 3 KVM管理网 机房环境 SMP胖节点 GPGPU节点
高性能计算机中的关键技术 一计算系统 二基础设施 三功能节点 四存储系统 五网络系统 六操作系统 七管理调度软件 八并行环境 九应用软件
一 计算系统主流解决方案 ----SMP节点+刀片集群 胖节点 计算系统: 曙光四路刀片服务器+曙光八路SMP胖节点服务器 网络系统: 20Gb Infiniband计算网络、FC光纤存储网络、万兆骨干网络、千兆管理网络 存储系统: Lustre并行文件系统、EMC存储盘阵 管理系统: GridView服务器综合管理系统,提供了机群状态监控、作业调度、告警管理、报表统计、机群管理、系统部署6大类机群管理功能
刀片服务器系统结构 2 高速交换模块 4 高性能散热模块 10 弹性I/O刀片 10 计算刀片 4 N+N 冗余电源模块 4 低速交换模块 10U 4 N+N 冗余电源模块 4 低速交换模块 2 机箱管理模块 1 弹性存储模块
刀片服务器优势分析 VS 密度更高 功耗更低 布线简单 管理方便 可靠性更高 机房要求降低
SMP 胖节点 1 单机性能高 2 内存容量更大 3 更高本地IO 4 丰富的扩展能力 I950-G 单机更高的核心数,可扩展至48-64核心,提供 更高的单机性能,对于共享存储并行程序提供更大的扩展性 某些应用需要非常大的单机内存容量,比如序列拼接,电磁计算等应用,胖节点具有1TB海量内存的扩展性,满足此类应用 2 内存容量更大 A840-G 3 更高本地IO 8块以上的本地硬盘扩展能力,提供更高的存储性能和更大的存储空间 更大的空间,丰富的插槽,可以适合插入各种类型的外插卡,提供更为灵活的配置和扩展 4 丰富的扩展能力
二 功能节点主流解决方案 ----普通标准服务器 二 功能节点主流解决方案 ----普通标准服务器 管理节点 登陆节点 IO节点 用于用户登陆集群,在集群上实现作业提交,文件上传,编辑,程序编译等操作。可靠性要求高,数量少 用于运行系统级的管理软件,性能要求不高,但可靠性要求高,数量少 用于连接存储设备,提供共享存储空间。小型项目,使用单一IO节点提供NFS解决。大中型,使用并行文件系统,多个IO节点和存储空间解决IO瓶颈 大型项目 小项目 中型项目 登陆节点 IO节点 管理节点
三 网络系统主流解决方案 ----千兆管理网+Infiniband高速网 管理网络: 对性能要求较低,主要用于系统管理,用户登陆等操作。一般配置千兆以太网交换机与刀片交换模块互联。 计算网络: 对性能有较高问题,具有高带宽低延时的Infiniband网络可用很好解决这一问题。对于部分对网络性能要求不高的领域,比如石油、渲染等领域,配置线速互联的千兆以太网。
各种网络基本性能 越高越好 越低越好
网络对应用性能的影响 NAMD 扩展性 FLUENT 扩展性 WRF 扩展性 VASP 扩展性
四 存储系统主流解决方案 ----从IB存储系统到并行存储系统 终极解决方案 升级解决方案 传统解决方案 硬件:IO节点+光纤磁盘阵列 计算集群 Parastor IO节点 光纤磁盘阵列 IB交换机 IB线缆 终极解决方案 光纤线缆 升级解决方案 并行存储系统,实现多个访问通道和多个存储的并发读写和单一访问空间 传统解决方案 将光纤磁盘阵列升级为IB磁盘阵列,从而提高磁盘阵列的访问性能 硬件:IO节点+光纤磁盘阵列 软件:NFS协议 网络接口:以太网或IB
产品介绍 Parastor 系统架构图
并行存储系统 Parastor 统一命名空间 高可扩展性 高性能 高可靠性 高可用性 易用易管理 设计原则 自动负载均衡 大规模并行 高可用 存储介质 大规模并行 业界标准组件 简捷易用 自动负载均衡 高可用 设计原则 高性能 高可用性 易用易管理 高可扩展性 高可靠性
----普通网孔机柜+精密空调+下送风解决方案 五 基础设施主流解决方案 ----普通网孔机柜+精密空调+下送风解决方案 精密空调(下送风) UPS及电池 网孔机柜
六 操作系统主流解决方案 ----Linux 企业版 开源 高效 多用户 界面友好 兼容性强
七 作业调度及系统管理解决方案 单一系统映象 系统资源整合 多用户的管理 用户权限的管理 集群松散结构的整合 软硬件资源的整合,异构资源整合 用户提交的任务的统一安排,避免冲突 多用户的管理 对用户进行各类权限控制 用户权限的管理
作业调度系统解决方案 PBS 分为开源的torque和商业的pbspro,尤其torque,为目前应用最多的作业调度系统 LSF 成熟商业作业调度系统,在较大规模系统中广泛应用,由platform 公司开发。 SGE 由SUN公司(现为oracle公司)开发,开源免费,功能较强大,也有较多用户。
系统管理软件核心功能 1 监控管理 2 自动告警 3 部署恢复 4统计报表 实现全局系统的监控和管理 声光、邮件、短信等多种告警策略 系统的自动恢复部署 集群使用情况的一个可定制的统计
Gridview 视图范例 作业统计视图 实时性能视图 统计报表视图 性能对比窗口
编译器 数学库 并行库 八 并行环境 Intel编译器 Pgi编译器 Gnu编译器 Eclips 集成开发环境 Gotoblas,lapack,scalapck fftw mkl,acml 并行库 Openmpi,intelmpi,mpich2,mvapich2 PVM openmp
九应用软件 Vasp、gauss、cpmd,MS… Blast、bwa、namd、gromacs、dock Ansys,Fluent,CFX,lsdyna… CAE Vasp、gauss、cpmd,MS… 物理化学 Blast、bwa、namd、gromacs、dock 生命科学 Wrf,mm5,graphes、roms… 气象海洋预报 Omega,cgg… 石油地震资料处理 Maya,3dmax… 动漫图像渲染
目录 高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流解决方案介绍 4 高性能计算的新技术介绍
高性能集群新技术 一GPU/众核加速计算解决方案 七集群配额技术解决方案 二集群容错解决方案 三远程图像建模解决方案 六功耗管理解决方案 四应用Portal解决方案 五机柜排整体解决方案 六功耗管理解决方案 七集群配额技术解决方案
一 GPGPU 加速解决方案 ---提供更高的计算性能和能效比 6 cores Nvidia Tesla C2050 与CPU对比 双精度浮点运算性能优势明显 X5650 CPU=2.66GHz×6核×(4flops/Hz)=64Gflops C2050 GPU=1.15GHz×448核=515.2Gflops 很多应用C2050实测性能远优于CPU 6 cores X5650 C2050
C2050适用的领域 应用领域 应用软件 金融/数据挖掘 MATLAB Jacket (MATLAB Plugin) Mathematica NAG Murex 音视频处理 JPEG2000 CUDA Encoder H264 分子动力学 Amber Lammps Gromacs Abalone NAMD/VMD HOOMD-Blue ACEMD CP2K DL_POLY 量子化学 Abinit Q-CHEM TeraChem Espresso/PWscf Gamess NWChem 分子可视化 Amira Core Hopping FastROCS VMD 序列比对/测序 DNADist CUDA-EC CUDA-BLASTP CUDA-MEME GPU Blast CUDASW++ GPU-HMMER SARUMAN MUMmerGPU SeqNFind MUMmerGPU++ UGENE 药物/工业设计 HEX Protein Docking Synopsys Dassault Systemes:Simulia 结构力学 Ansys:Mechanical PAM-CRASH IMPETUS Afea LS-DYNA RADIOSS Abaqus Nastran MSC Marc 流体力学 Autodesk Moldflow OpenFOAM Solver Turbostream Altair AcuSolve Sandia NL S3D FEFLO (Lohner) Prometech Particleworks SD++ (Jameson) LBultra FluiDyna 工业设计/CAD Dassault Systemes: CATIA Autodesk Solidworks PTC 医学成像 Digisens DigiHCT Acceleware AxRecon Siemens Foursight 电磁学 CST Microwave Studio Agilent EMPro SPEAG SEMCAD X Remcom XFdtd 国防情报 Ikena ESRI Intergraph Manifold 渲染 Mental images Adobe Avid MainConcept Autodesk M&E sony 气象/海洋/环境 WRF ASUCA NIM CAM HIRLAM GEOS-5 HOMME MITgcm HYCOM Quda (L-QCD) 地震资料处理 Schlumberger Landmark Paradigm GeoStar Acceleware RTM Solver 数学库 cufft cublas culapack 所有的领域都可以用到C2050
Lennard-Jones potential 曙光在C2050上做的测试工作v Gromacs lmpl NAMD/VMD/IMD ApoA1重组蛋白体系优化 92224个粒子/1000步迭代 Lennard-Jones potential Ansys Mechanical iray Terachem DFT优化 《gpuAutodock测试报告》 《GPU计算在理论化学领域的应用测试》 《Paradigm RTM测试(GPU)》 《TC3600平台下CUDA应用程序测试报告》 《W580I CUDA应用程序测试报告》 《A650-GP CUDA应用程序测试报告》 《某量子化学程序GPU移植评估报告》 《Lammps在GPU上应用测试报告》 《Gromacs GPU测试报告》 《Terachem GPU测试报告》 《双精度矩阵乘应用优化报告》 《bgp GPU加速项目报告》 《CPU/GPU异构系统优化介绍》 《千万亿次系统GPU算法优化介绍》 《CUDA编程开发与优化》 《OpenCL程序开发与优化》 《NAMD GPU测试报告》 ……………… WRF
曙光的GPGPU优势——应用整合 应 用 加 速 层 结构力学 气象海洋 数值计算 蛋白质分析 分子对接 电磁学 金融 信息安全 作业分发 作业调度 作业控制 核心服务平台 模块管理 页面基础 认证授权 远程通信 配置管理 依赖管理 事件机制 第三方接口 分子动力学 第一性原理 石油石化 流体力学 资源管理 Clusmax是基于GPU的作业调度、系统监控管理、应用Portal、应用软件集成于一身的可定制的Gridview模块 运 维 层 信息监控 智能诊疗 自动预警 性能分析 硬 件 层
1 2 3 4 二集群容错系统解决方那 ----解决系统失效带来的计算资源浪费现象 1. 单节点故障正在成为集群系统的常态 - 系统规模超过2000个节点,每天都存在节点死机的情况 - 系统越大,则故障点越多 1 2. 集群系统的可用性差于SMP和NUMA系统 - 无法实现系统级别的进程迁移 2 3. 人们的关注点正在从“快算”变成“能算” - 一个需要使用1000节点任务,最多承受1天时间 - 一个使用1节点的任务,可能需要运算30天! 3 4 4. 评价集群系统不是“谁用得好”,而是“谁用得不好” - 越来越多的用户感受到不便
Cache Storage interface Clusnap集群容错模块 进程迁移 断点续算 关键任务 缓 存 存 储 接 口 16GB 32GB 64GB Cache是Clusnap最重要的指标,它决定断点保存性能 Storage 2TB 10TB 20TB 存储容量决定了Clusnap保存断点的容量,可根据集群和应用规模选择 存 储 interface 接 口 双1000Mbps以太网端口 单40/20Gbps IB网端口 单10Gbps GE端口 接口的选择要视集群的交换设备来选择。通信网是IB选IB;通信网是以太选以太网
Clusnap核心功能——断点续算 上帝保佑我能算完! 第一天平安无事! 第二天 居然还平安无事? 第三天 OMG,机器死机,要来的终究会来的….. 第七天,运气不错,居然坚持了4天! 无Clusnap的用户 我很有底! 第一天 断点1 第二天断点2 第三天 机器失效! 意料之中! 第五天 算完! 有Clusnap的用户
Clusnap 成功案例 广西大学HPC计算中心 32GB 1 成都超算 16GB 2 中科院北京生命科学研究院 武汉暴雨所 成都高原所 深圳气象局 64GB 中国矿业大学 中科院计算所 温州医学院 北京林业大学 新疆大学 咸阳师范学院 大连理工大学力学系 北京大学化学与分子动力学院 西南交通大学高性能计算中心 河南师范大学物理与信息工程学院 中国空气动力发展与研究中心高性能项目 绵阳9院四所
-----解决本地客户端建模带来的众多问题 三 远程图像建模技术 -----解决本地客户端建模带来的众多问题 集群渲染、工程计算等领域,常需要进行带3D加速的图形建模、作业前后处理等工作 传统的集群图形处理功能薄弱 传统采用独立图形工作站的方式弊端较多 1 数据分散,难以管理,操作不便 2 客户端配置要求高,数量多,资源浪费 3 客户端多为windows,格式不兼容 4 每个客户端都需要支付软件的License费用 5 数据上传带来很大的网络流量 解决方案: Clusviz集群 远程可视化 系统
Clusviz 远程图像处理测试结果 Benchmark: Spec Viewperf 10.0 Alpha 12 3dsmax-04
Clusviz系统工作原理 曙光Clusviz Server 显示终端 过程描述: 1、Clusviz将应用程序的OpenGL指令及3D数据载入到Clusviz的3D图形加速卡上进行渲染处理。 2、渲染过的3D图像被传递给Clusviz上的X Proxy进行压缩处理。 3、压缩过的3D图像通过网络传递给客户端。 4、客户端将3D图像解压并最终显示在屏幕上。
Clusviz集群远程可视化系统 Clusviz Server配置 5U机塔互换式设计 64位处理器核心 16GB数据Cache 高端3D图形加速卡,2GB图形 Cache 500GB本地存储 双千兆网口 冗余电源 含曙光远程虚拟图像系统用于加速远程3D客户端图形、图像信息处理的系统 可管理1-16个客户端虚拟3D桌面,可在任意一台客户端及时恢复之前的工作状态
四 应用protal解决方案 ----解决高性能集群易用性的问题 Gridview的一个子模块 实现了多种高性能计算应 用的web封装,降低高性 能计算的使用门槛; 更加安全的用户作业提交 方式,减小用户误操作几 率; 支持用户定制开发 与Clusnap结合实现作业 自动故障迁移 与Clusviz结合,实现可 视化交互式作业提交 (Platform LSF、PBS Pro的高级功能)
Clusportal 优势分析 1 简化使用难度 与windows类似的封闭式提问操作,避免作业提交脚本的撰写和命令行的操作,大大降低使用难度 2 提高安全性 基于web的操作,避免用户远程登录到服务器,规避非法操作 3 实现错误检查、提高操作效率 封闭式的操作规避了用户的错误输入,提高工作效率。 4 与作业调度等其它产品无缝融合 与曙光Gridview作业调度、ClusQuota、Clusnap、、Clusviz等产品无缝融合 5 实现单一系统映像 用户无需知道后台资源,就能够自动完成高性能作业任务
Clusportal支持的应用 基本Portal CAE & CFD 串行、OpenMP、MPI CAE & CFD ANSYS、Fluent、Lsdyna、Abaqus、Fecko、CFX 物理化学 vasp、Gaussian、siesta、pwscf 生命科学 namd、gromacs、amber、mpiblast、blast、dock 定制 针对用户应用软件或特定需求开发
五 机柜排整体式解决方案 ---解决传统制冷方式制冷效率低下的问题 传统制冷解决方案
热岛现象——制冷不均匀造成了系统MTBF的降低 传统制冷解决方案的散热效果 热岛现象——制冷不均匀造成了系统MTBF的降低
空调通风系统 机柜内封闭式水平送风 制冷单元与机柜左右并排布局 制冷单元与机柜一体
空调通风系统 曙光C1000系统空调 冷热通道分离,气流组织有序 ; 就近精确送风,循环风阻小、风量大 ; 不同高度进风温度均衡; 针对设备冷却,无需过度冷却房间 制冷效率高、系统噪音低; 可以解决最高单机柜10至30KW的散热需求 。
六 功耗管理解决方案 ----精确功耗管理,解决系统能耗过高的问题 策略维度: 时间、地域、应用类型、最大功耗、功耗模式、热平衡、频率调整模式、冗余功耗、动态功耗、优先级、工作组自动调整
Powerconf 集群节能模块 集群 单机 单机节能与集群功耗控制 优先级管理 工作组功耗管理 系统功耗管理 静态功耗分配 负载分析 最佳系统使用率 动态功耗分配 CPU核心关/开 频率调整 单机
Powerconf 集群节能模块 用户 系统运用 节能效果 节能效果分析 某石油行业用户拥有大量计算机群,年电费总额达1800万元,是典型的高性能计算用户。(负载波动剧烈) 用户 系统运用 节能效果 1192节点部署了节能系统后每年可节省至少 50,000度电!! 空闲时,将节点置于待机状态,每节点可比空转情况节省75W左右。3秒钟内可以将节点唤醒,用户几乎不会受到影响 系统会根据应用运行情况自动将空闲节点置于待机状态,同时将信息记入数据库以便查询。
七 用户配额解决方案 -----解决传统用户资源分配中的不足 1 高性能计算资源犹如用电、用水、供暖一样,都是面向公众服务的公共资源。 2 由于服务对象人数众多,要求多样化,水平参差不齐,对公共资源的管理是摆在管理者面前的一个难题。 3 如何实现精确的、高效的、有控制力的管理? 4 管理模式的改变。 先管理、再使用,一切尽在掌握中 先使用,再管理,管理不可控
资源管理器(Gridview, PBS, LL, LSF) ClusQuota实时配额流程 0 设定用户的计算资源配额(预充值) 1 用户提交作业 2 根据作业所需的资源类型进行询价 计费系统 3 如果配额足够,做预授权 4 作业开始运行 6 5 作业运行结束,统计实际使用情况 2 3 6 撤销预授权,并实时计费 资源调度器 4 资源管理器(Gridview, PBS, LL, LSF) 5 实时配额 1 预授权 询价 预授权 用户配额(预充值) 81