高性能计算的现状和发展解决方案中心高性能计算方案部.

高性能计算的现状和发展解决方案中心高性能计算方案部

目录高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流解决方案介绍 4 高性能计算的新技术介绍

什么是高性能计算？高性能计算 HPC：High Performance Compute 高性能计算---并行计算
并行计算(Parallel Computing）高端计算(High-end Parallel Computing) 高性能计算(High Performance Computing) 超级计算(Super Computing)

在许多情况下，或者是理论模型复杂甚至理论尚未建立，或者实验费用昂贵甚至无法进行时，计算就成了求解问题的唯一或主要的手段。
高性能计算的重要性 “进入21世纪以来，计算方法与分子模拟、虚拟实验，已经继实验方法、理论方法之后，成为第三个重要的科学方法，对未来科学与技术的发展，将起着越来越重要的作用。” ——徐光宪院士在许多情况下，或者是理论模型复杂甚至理论尚未建立，或者实验费用昂贵甚至无法进行时，计算就成了求解问题的唯一或主要的手段。近年来计算机软、硬件飞速发展，理论模拟研究渐趋普及，分子模拟技术现已成为继实验手段、理论推导之后的第三类重要的科研方法。而另一方面，面对审稿人越来越挑剔的眼光，我们撰文投稿的时候除了实验数据之外，理论模拟的结果也逐渐成了不可或缺的组成部分，在解释实验结果、预测分子性质等方面发挥了重要的辅助作用，令文章内容更加翔实严谨。

Computational R&D is growing in relative importance
高性能计算的重要性 Computational R&D is growing in relative importance 2030 1995 1995: 10 % modeling 90 % experiment 2002 2002: 20 % modeling 80 % experiment 2030: 50 % modeling 50 % experiment

为什么要做高性能计算？--应用的驱动问题: 科学和工程问题的数值模拟与仿真人类对计算及性能的要求是无止境的计算密集数据密集网络密集
从系统的角度：集成系统资源，以满足不断增长的对性能和功能的要求从应用的角度：适当分解应用，以实现更大规模或更细致的计算问题: 科学和工程问题的数值模拟与仿真计算密集数据密集网络密集三种混合

高性能的各类应用为什么要做高性能计算 ——应用需求

高性能计算结构模型

高性能计算架构变化数据来源：2010 TOP 500 排行榜

高性能计算网络发展数据来源：2010 TOP 500 排行榜

高性能集群操作系统份额数据来源：2010 TOP 500 排行榜

衡量高性能系统性能的评价指标 -----理论峰值（FLOPS）
1、如何计算理论峰值：峰值＝主频(GHz)*总核心数*4 (4代表每个时钟周期做4次浮点运算) 例如：10个AMD双路12核刀片（CPU6174，主频2.2）总核心数＝10×2×12＝240 峰值＝2.2×240×4＝2112GFLOPS＝2.1TFLOPS=2.1万亿次。 GPU峰值：每C2050卡双精度峰值＝0.515TFLOPS 单精度峰值＝1.03TFOPS 双精度峰值＝0.515* GPGPU卡数目（TFLOPS）单精度峰值＝1.03* GPGPU卡数目（TFLOPS）

衡量高性能系统性能的评价指标 -----实测峰值（FLOPS）
HPL(Linpach)测试 ---对系统进行整体计算能力的评价 Linapck测试：采用主元高斯消去法求解双精度稠密线性代数方程组，结果按每秒浮点运算次数（flops）表示。 HPL：针对大规模并行计算系统的测试，其名称为High Performance Linpack (HPL)，是第一个标准的公开版本并行Linpack测试软件包，用于TOP500与国内TOP100排名依据。使用者可以改变问题规模。有相当大的优化空间。

衡量高性能系统性能的评价指标 -----系统效率
衡量高性能系统性能的评价指标系统效率系统效率=实测峰值/理论峰值如何提高效率：（1）通过优化网络（2）通过优化测试程序的编译与设置（3）通过优化内存的配置与容量（4）通过优化运行参数及系统参数！目前:一套通过Infiniband网络互连的集群，效率一般在70%以上。

加速比定律在并行计算系统，并行算法（并行程序）的执行速度相对于串行算法（串行程序）加快的倍数，就是该并行算法（并行程序）的加速比；
加速比是衡量“并行收益”的重要指标； Amdahl定律适用于固定计算规模的加速比性能描述，Gustafson定律适用于可扩展问题。

Amdahl定律 S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p))
显然，当p→∞时，S=1/f，即对于固定规模的问题，并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪

Gustafson定律 S‘=（WS+pwp）/（WS+WP） =p-f（p-1）=f+p（1-f）
并行计算是为了解决大规模并行问题，可并行部分的比例是可扩大的加速比与处理器数成斜率为（1-f）的线性关系这样串行比例f就不再是程序扩展性的瓶颈，当然，f越低，斜率会越大，加速性能越好。

目录高性能计算发展介绍 1 高性能计算应用领域介绍 2 3 高性能计算的主流应用介绍 4 高性能计算的新技术介绍

高性能计算在国内的六大应用领域六大应用领域 CAE （CFD）物理化学材料生命科学气象环境海洋石油勘探图像渲染
计算机辅助工程，广泛应用于工业生产中 CAE （CFD）基因科学、蛋白质科学的研究以及新药的研发物质的物理化学材料属性的科研工作中物理化学材料生命科学六大应用领域石油勘探气象环境海洋地震资料处理，用于油气勘探气象环境海洋的数值预报图像渲染动画、电影、图像的高逼真效果制作其它：卫星图像处理、金融计算等

一CAE仿真介绍分析的过程: 前处理后处理求解采用各种CAD工具，建立几何模型，划分计算网格显示计算结果，评估产品性能
指定荷载和边界条件，提交给计算服务器进行分析

CAE仿真介绍隐式结构力学显式结构力学计算流体力学计算电磁学声学分析多体动力学 MSC.NASTRAN MARC ANSYS
ABAQUS/Standard ADINA 显式结构力学 LS-DYNA PAM-CRASH DYTRAN ABAQUS/Explicit 多体动力学 ADAMS 计算流体力学 FLUENT STAR-CD/HPC PowerFLOW CFX CFD-Fastran 计算电磁学 FEKO ANSOFT 声学分析 SYSNOISE

二物理化学材料应用介绍各种理论模拟方法的适用范围最大原子数可计算量分子力学 2000 ~ 100万粗略的几何结构半经验
500 ~ 2000 几何结构(有机分子) HF(DFT) 50 ~ 500 能量(含过渡金属) MP2 20 ~ 50 能量(弱, 氢键) CCSD(T) 10 ~ 20 精确能量(弱作用) CASPT2 < 10 磁性(多个多重度) 为了建立化学模型, 我们首先要了解各种化学模型的精度与适用范围, 这里我们给出了不同理论等级可计算的原子的个数, 以及其可计算与预测的性质. 一般在个人电脑上量子化学能准确计算的大概在不超过200个原子. 而且根据问题不同可计算体系会有很大不同. 目前最精确的计算还只限于几个原子的分子, 比如CASPT2.

二物理化学材料应用介绍适合周期体系的计算软件 VASP ABINIT CPMD PWSCF(ESPRESSO) 适合非周期体系的计算软件
GAUSSIAN03 GAMESS-US (PC-GAMESS)

三生命科学应用介绍序列搜寻与比对原理序列搜寻 HIPDWYLAGHIF YIPDWYLAGHIF DFPLAGHIFDWY
HIPDWYLAdfFGHIF YIPDWYLAGHIF HGFL--AGHIFAWY--- ------PLAGHIFDWHGH HIPDWYLAGHIF

三生命科学应用介绍分子动力学模拟 simulation of an entire ribosome, the cell's protein factory, comprising 3,000,000 atoms when solvated. on an IBM Blue Gene Simulating an Entire Life Form，using coarse-grained molecular dynamics simulations With the Cray XT3 they’ve been able to run efficiently, using software called NAMD, with as many as 1,024 processors. “The XT3 has been amazing,” says Blood. “We haven’t found a hard limit on scaling up the number of processors.”

三生命科学应用介绍测序数据处理准备试剂仪器测序数据分析

主流模式分析四气象、环境、海洋数值预报应用介绍
气象海洋领域程序模式众多，我们不但要熟悉我们的硬件还要熟悉这些众多的软件的特点以及在不同平台上的性能差异；气象常用模式：MM5、WRF、GRAPES、AREMS、LAPS、 ARPS、T106等海洋常用模式：FVCOM、HYCOM、ECOMSED、ECOM、 POP、MOM4、MITgcm、CCSM3，roms等环境常用模式：CMAQ等

四气象、环境、海洋数值预报应用介绍业务系统流程图 28

五石油勘探应用介绍油气勘探背景激发地震波接收反射波采集获得地面单炮记录处理完成地下构造成像解释完成构造成图和建议井位
钻探确认真伪

五石油勘探应用介绍曙光石油勘探计算中心解决方案

六图像渲染应用介绍渲染渲染（Render）：作为计算机数字图像（CG）处理中的一道重要工序，经过Render这个程序，我们将模型或者场景输出成图像文件、视频信号或者电影胶片。这里的渲染有别于3D显示领域的实时(real-time)渲染，而是静态渲染或者离线(off-line)渲染。所谓渲染农场（Renderfarm）其实就是“分布式并行集群计算系统”，它是一种利用现成的CPU、网络负载和操作系统构建的高性能超级计算机，它使用主流的商业计算机硬件设备达到或接近超级计算机的计算能力。集群（Cluster）指的是一组计算机通过通信协议连接在一起进行同一种服务，在客户端看来就像是只有一个计算机。集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个机器坏了整个系统还是能够正常运行。它的目标是使用主流的硬件设备组成网格计算能力，达到、甚至超过超级计算机的计算性能。有了这样的渲染农场，企业可以用最快的时间看到作品的质量，如果需要修改也不会浪费太多的时间，这样整个作品的渲染和产出都会很轻松的实现，同时不会影响企业里其他项目的进行。例如，800个计算核心的超高计算密度，理论计算峰值7.5万亿次。一部全CG电影的总渲染时间是很恐怖的。通常2K电影分辨率所需要的渲染时间能被大家接受的大概在每帧1小时左右，而好莱坞主流电影的分辨率在2K、4K，甚至达到了6K或者8K，随着每一阶品质的提高而其渲染时间将是上一品质的4倍。如果场景还涉及到粒子、流体等复杂计算的时候，渲染的速度又会成倍提高，一帧画面的渲染时间可能在10小时以上。

渲染集群应用技术六图像渲染应用介绍主流三维建模软件常用渲染器渲染分发管理软件集群管理系统存储子系统其他技术支撑
Maya、3Ds Max、Softimage、Lightwave、Houdini、Cinema 4D等常用渲染器 Vray，Mental Ray，Maya software，渲染分发管理软件 Muster、Enfuzion3D、Qube等集群管理系统 Linux+Gridview、WHS2008等存储子系统 NAS、SAN、Dawning LoongStore等其他技术支撑

高性能计算机系统架构系统软件层基础设施层 IT核心硬件层存储系统计算系统网络系统操作系统作业调度软件、管理系统并行环境
编译器、数学库、MPI 网络 PC机笔记本平板电脑瘦客户端工作站应用软件层生命科学 CAE仿真功能节点空调系统物理化学气象海洋配电系统防雷系统机房装修机柜及KVM 石油勘探动漫渲染应用 Portal

高性能计算作业的工作流程机房环境 1 存储系统 2 4 1 5 3 外网内网局域网并行存储系统防火墙千兆交换机路由器
Internet 本地建模 1 并行存储系统登陆/管理节点存储系统算例上传作业提交 2 数据访问与存储 4 远程控制以太网交换机本地建模 1 高速Inifiniband交换机系统管理与用户管理 5 以太网计算系统 Infiniband网刀片集群本地KVM 控制台光纤网作业运行 3 KVM管理网机房环境 SMP胖节点 GPGPU节点

高性能计算机中的关键技术一计算系统二基础设施三功能节点四存储系统五网络系统六操作系统七管理调度软件八并行环境九应用软件

一计算系统主流解决方案 ----SMP节点+刀片集群
胖节点计算系统：曙光四路刀片服务器+曙光八路SMP胖节点服务器网络系统： 20Gb Infiniband计算网络、FC光纤存储网络、万兆骨干网络、千兆管理网络存储系统： Lustre并行文件系统、EMC存储盘阵管理系统： GridView服务器综合管理系统，提供了机群状态监控、作业调度、告警管理、报表统计、机群管理、系统部署6大类机群管理功能

刀片服务器系统结构 2 高速交换模块 4 高性能散热模块 10 弹性I/O刀片 10 计算刀片 4 N+N 冗余电源模块 4 低速交换模块
10U 4 N+N 冗余电源模块 4 低速交换模块 2 机箱管理模块 1 弹性存储模块

刀片服务器优势分析 VS 密度更高功耗更低布线简单管理方便可靠性更高机房要求降低

SMP 胖节点 1 单机性能高 2 内存容量更大 3 更高本地IO 4 丰富的扩展能力 I950-G
单机更高的核心数，可扩展至48-64核心，提供更高的单机性能，对于共享存储并行程序提供更大的扩展性某些应用需要非常大的单机内存容量，比如序列拼接，电磁计算等应用，胖节点具有1TB海量内存的扩展性，满足此类应用 2 内存容量更大 A840-G 3 更高本地IO 8块以上的本地硬盘扩展能力，提供更高的存储性能和更大的存储空间更大的空间，丰富的插槽，可以适合插入各种类型的外插卡，提供更为灵活的配置和扩展 4 丰富的扩展能力

二功能节点主流解决方案 ----普通标准服务器
二功能节点主流解决方案普通标准服务器管理节点登陆节点 IO节点用于用户登陆集群，在集群上实现作业提交，文件上传，编辑，程序编译等操作。可靠性要求高，数量少用于运行系统级的管理软件，性能要求不高，但可靠性要求高，数量少用于连接存储设备，提供共享存储空间。小型项目，使用单一IO节点提供NFS解决。大中型，使用并行文件系统，多个IO节点和存储空间解决IO瓶颈大型项目小项目中型项目登陆节点 IO节点管理节点

三网络系统主流解决方案 ----千兆管理网+Infiniband高速网
管理网络: 对性能要求较低，主要用于系统管理，用户登陆等操作。一般配置千兆以太网交换机与刀片交换模块互联。计算网络: 对性能有较高问题，具有高带宽低延时的Infiniband网络可用很好解决这一问题。对于部分对网络性能要求不高的领域，比如石油、渲染等领域，配置线速互联的千兆以太网。

各种网络基本性能越高越好越低越好

网络对应用性能的影响 NAMD 扩展性 FLUENT 扩展性 WRF 扩展性 VASP 扩展性

四存储系统主流解决方案 ----从IB存储系统到并行存储系统终极解决方案升级解决方案传统解决方案硬件：IO节点+光纤磁盘阵列
计算集群 Parastor IO节点光纤磁盘阵列 IB交换机 IB线缆终极解决方案光纤线缆升级解决方案并行存储系统，实现多个访问通道和多个存储的并发读写和单一访问空间传统解决方案将光纤磁盘阵列升级为IB磁盘阵列，从而提高磁盘阵列的访问性能硬件：IO节点+光纤磁盘阵列软件：NFS协议网络接口：以太网或IB

产品介绍 Parastor 系统架构图

并行存储系统 Parastor 统一命名空间高可扩展性高性能高可靠性高可用性易用易管理设计原则自动负载均衡大规模并行高可用
存储介质大规模并行业界标准组件简捷易用自动负载均衡高可用设计原则高性能高可用性易用易管理高可扩展性高可靠性

----普通网孔机柜+精密空调+下送风解决方案
五基础设施主流解决方案 ----普通网孔机柜+精密空调+下送风解决方案精密空调（下送风） UPS及电池网孔机柜

六操作系统主流解决方案 ----Linux 企业版开源高效多用户界面友好兼容性强

七作业调度及系统管理解决方案单一系统映象系统资源整合多用户的管理用户权限的管理集群松散结构的整合软硬件资源的整合，异构资源整合
用户提交的任务的统一安排，避免冲突多用户的管理对用户进行各类权限控制用户权限的管理

作业调度系统解决方案 PBS 分为开源的torque和商业的pbspro，尤其torque，为目前应用最多的作业调度系统 LSF
成熟商业作业调度系统，在较大规模系统中广泛应用，由platform 公司开发。 SGE 由SUN公司（现为oracle公司）开发，开源免费，功能较强大，也有较多用户。

系统管理软件核心功能 1 监控管理 2 自动告警 3 部署恢复 4统计报表实现全局系统的监控和管理声光、邮件、短信等多种告警策略
系统的自动恢复部署集群使用情况的一个可定制的统计

Gridview 视图范例作业统计视图实时性能视图统计报表视图性能对比窗口

编译器数学库并行库八并行环境 Intel编译器 Pgi编译器 Gnu编译器 Eclips 集成开发环境
Gotoblas，lapack，scalapck fftw mkl，acml 并行库 Openmpi，intelmpi，mpich2，mvapich2 PVM openmp

九应用软件 Vasp、gauss、cpmd，MS… Blast、bwa、namd、gromacs、dock
Ansys，Fluent，CFX，lsdyna… CAE Vasp、gauss、cpmd，MS… 物理化学 Blast、bwa、namd、gromacs、dock 生命科学 Wrf，mm5,graphes、roms… 气象海洋预报 Omega，cgg… 石油地震资料处理 Maya，3dmax… 动漫图像渲染

高性能集群新技术一GPU/众核加速计算解决方案七集群配额技术解决方案二集群容错解决方案三远程图像建模解决方案六功耗管理解决方案
四应用Portal解决方案五机柜排整体解决方案六功耗管理解决方案七集群配额技术解决方案

一 GPGPU 加速解决方案 ---提供更高的计算性能和能效比 6 cores Nvidia Tesla C2050 与CPU对比
双精度浮点运算性能优势明显 X5650 CPU=2.66GHz×6核×(4flops/Hz)=64Gflops C2050 GPU=1.15GHz×448核=515.2Gflops 很多应用C2050实测性能远优于CPU 6 cores X5650 C2050

C2050适用的领域应用领域应用软件金融/数据挖掘 MATLAB Jacket (MATLAB Plugin) Mathematica
NAG Murex 音视频处理 JPEG2000 CUDA Encoder H264 分子动力学 Amber Lammps Gromacs Abalone NAMD/VMD HOOMD-Blue ACEMD CP2K DL_POLY 量子化学 Abinit Q-CHEM TeraChem Espresso/PWscf Gamess NWChem 分子可视化 Amira Core Hopping FastROCS VMD 序列比对/测序 DNADist CUDA-EC CUDA-BLASTP CUDA-MEME GPU Blast CUDASW++ GPU-HMMER SARUMAN MUMmerGPU SeqNFind MUMmerGPU++ UGENE 药物/工业设计 HEX Protein Docking Synopsys Dassault Systemes:Simulia 结构力学 Ansys:Mechanical PAM-CRASH IMPETUS Afea LS-DYNA RADIOSS Abaqus Nastran MSC Marc 流体力学 Autodesk Moldflow OpenFOAM Solver Turbostream Altair AcuSolve Sandia NL S3D FEFLO (Lohner) Prometech Particleworks SD++ (Jameson) LBultra FluiDyna 工业设计/CAD Dassault Systemes: CATIA Autodesk Solidworks PTC 医学成像 Digisens DigiHCT Acceleware AxRecon Siemens Foursight 电磁学 CST Microwave Studio Agilent EMPro SPEAG SEMCAD X Remcom XFdtd 国防情报 Ikena ESRI Intergraph Manifold 渲染 Mental images Adobe Avid MainConcept Autodesk M&E sony 气象/海洋/环境 WRF ASUCA NIM CAM HIRLAM GEOS-5 HOMME MITgcm HYCOM Quda (L-QCD) 地震资料处理 Schlumberger Landmark Paradigm GeoStar Acceleware RTM Solver 数学库 cufft cublas culapack 所有的领域都可以用到C2050

Lennard-Jones potential
曙光在C2050上做的测试工作v Gromacs lmpl NAMD/VMD/IMD ApoA1重组蛋白体系优化 92224个粒子/1000步迭代 Lennard-Jones potential Ansys Mechanical iray Terachem DFT优化《gpuAutodock测试报告》《GPU计算在理论化学领域的应用测试》《Paradigm RTM测试（GPU）》《TC3600平台下CUDA应用程序测试报告》《W580I CUDA应用程序测试报告》《A650-GP CUDA应用程序测试报告》《某量子化学程序GPU移植评估报告》《Lammps在GPU上应用测试报告》《Gromacs GPU测试报告》《Terachem GPU测试报告》《双精度矩阵乘应用优化报告》《bgp GPU加速项目报告》《CPU/GPU异构系统优化介绍》《千万亿次系统GPU算法优化介绍》《CUDA编程开发与优化》《OpenCL程序开发与优化》《NAMD GPU测试报告》 ……………… WRF

曙光的GPGPU优势——应用整合应用加速层结构力学气象海洋数值计算蛋白质分析分子对接电磁学金融信息安全作业分发
作业调度作业控制核心服务平台模块管理页面基础认证授权远程通信配置管理依赖管理事件机制第三方接口分子动力学第一性原理石油石化流体力学资源管理 Clusmax是基于GPU的作业调度、系统监控管理、应用Portal、应用软件集成于一身的可定制的Gridview模块运维层信息监控智能诊疗自动预警性能分析硬件层

1 2 3 4 二集群容错系统解决方那 ----解决系统失效带来的计算资源浪费现象 1. 单节点故障正在成为集群系统的常态
- 系统规模超过2000个节点，每天都存在节点死机的情况 - 系统越大，则故障点越多 1 2. 集群系统的可用性差于SMP和NUMA系统 - 无法实现系统级别的进程迁移 2 3. 人们的关注点正在从“快算”变成“能算” - 一个需要使用1000节点任务，最多承受1天时间 - 一个使用1节点的任务，可能需要运算30天！ 3 4 4. 评价集群系统不是“谁用得好”，而是“谁用得不好” - 越来越多的用户感受到不便

Cache Storage interface Clusnap集群容错模块进程迁移断点续算关键任务缓存存储接口
16GB 32GB 64GB Cache是Clusnap最重要的指标，它决定断点保存性能 Storage 2TB 10TB 20TB 存储容量决定了Clusnap保存断点的容量，可根据集群和应用规模选择存储 interface 接口双1000Mbps以太网端口单40/20Gbps IB网端口单10Gbps GE端口接口的选择要视集群的交换设备来选择。通信网是IB选IB；通信网是以太选以太网

Clusnap核心功能——断点续算上帝保佑我能算完！第一天平安无事! 第二天居然还平安无事？
第三天 OMG，机器死机，要来的终究会来的….. 第七天，运气不错，居然坚持了4天！无Clusnap的用户我很有底！第一天断点1 第二天断点2 第三天机器失效! 意料之中! 第五天算完! 有Clusnap的用户

Clusnap 成功案例广西大学HPC计算中心 32GB 1 成都超算 16GB 2 中科院北京生命科学研究院武汉暴雨所成都高原所
深圳气象局 64GB 中国矿业大学中科院计算所温州医学院北京林业大学新疆大学咸阳师范学院大连理工大学力学系北京大学化学与分子动力学院西南交通大学高性能计算中心河南师范大学物理与信息工程学院中国空气动力发展与研究中心高性能项目绵阳9院四所

-----解决本地客户端建模带来的众多问题
三远程图像建模技术 -----解决本地客户端建模带来的众多问题集群渲染、工程计算等领域，常需要进行带3D加速的图形建模、作业前后处理等工作传统的集群图形处理功能薄弱传统采用独立图形工作站的方式弊端较多 1 数据分散，难以管理，操作不便 2 客户端配置要求高，数量多，资源浪费 3 客户端多为windows，格式不兼容 4 每个客户端都需要支付软件的License费用 5 数据上传带来很大的网络流量解决方案： Clusviz集群远程可视化系统

Clusviz 远程图像处理测试结果 Benchmark： Spec Viewperf 10.0 Alpha 12 3dsmax-04

Clusviz系统工作原理曙光Clusviz Server 显示终端过程描述：
1、Clusviz将应用程序的OpenGL指令及3D数据载入到Clusviz的3D图形加速卡上进行渲染处理。 2、渲染过的3D图像被传递给Clusviz上的X Proxy进行压缩处理。 3、压缩过的3D图像通过网络传递给客户端。 4、客户端将3D图像解压并最终显示在屏幕上。

Clusviz集群远程可视化系统 Clusviz Server配置 5U机塔互换式设计 64位处理器核心 16GB数据Cache
高端3D图形加速卡，2GB图形 Cache 500GB本地存储双千兆网口冗余电源含曙光远程虚拟图像系统用于加速远程3D客户端图形、图像信息处理的系统可管理1-16个客户端虚拟3D桌面，可在任意一台客户端及时恢复之前的工作状态

四应用protal解决方案 ----解决高性能集群易用性的问题 Gridview的一个子模块
实现了多种高性能计算应用的web封装，降低高性能计算的使用门槛；更加安全的用户作业提交方式，减小用户误操作几率；支持用户定制开发与Clusnap结合实现作业自动故障迁移与Clusviz结合，实现可视化交互式作业提交（Platform LSF、PBS Pro的高级功能）

Clusportal 优势分析 1 简化使用难度
与windows类似的封闭式提问操作，避免作业提交脚本的撰写和命令行的操作，大大降低使用难度 2 提高安全性基于web的操作，避免用户远程登录到服务器，规避非法操作 3 实现错误检查、提高操作效率封闭式的操作规避了用户的错误输入，提高工作效率。 4 与作业调度等其它产品无缝融合与曙光Gridview作业调度、ClusQuota、Clusnap、、Clusviz等产品无缝融合 5 实现单一系统映像用户无需知道后台资源，就能够自动完成高性能作业任务

Clusportal支持的应用基本Portal CAE & CFD
串行、OpenMP、MPI CAE & CFD ANSYS、Fluent、Lsdyna、Abaqus、Fecko、CFX 物理化学 vasp、Gaussian、siesta、pwscf 生命科学 namd、gromacs、amber、mpiblast、blast、dock 定制针对用户应用软件或特定需求开发

五机柜排整体式解决方案 ---解决传统制冷方式制冷效率低下的问题
传统制冷解决方案

热岛现象——制冷不均匀造成了系统MTBF的降低
传统制冷解决方案的散热效果热岛现象——制冷不均匀造成了系统MTBF的降低

空调通风系统机柜内封闭式水平送风制冷单元与机柜左右并排布局制冷单元与机柜一体

空调通风系统曙光C1000系统空调冷热通道分离，气流组织有序；就近精确送风，循环风阻小、风量大；不同高度进风温度均衡；
针对设备冷却，无需过度冷却房间制冷效率高、系统噪音低；可以解决最高单机柜10至30KW的散热需求。

六功耗管理解决方案 ----精确功耗管理，解决系统能耗过高的问题
策略维度：时间、地域、应用类型、最大功耗、功耗模式、热平衡、频率调整模式、冗余功耗、动态功耗、优先级、工作组自动调整

Powerconf 集群节能模块集群单机单机节能与集群功耗控制优先级管理工作组功耗管理系统功耗管理静态功耗分配负载分析
最佳系统使用率动态功耗分配 CPU核心关/开频率调整单机

Powerconf 集群节能模块用户系统运用节能效果节能效果分析
某石油行业用户拥有大量计算机群，年电费总额达1800万元，是典型的高性能计算用户。（负载波动剧烈）用户系统运用节能效果 1192节点部署了节能系统后每年可节省至少 50，000度电！！空闲时，将节点置于待机状态，每节点可比空转情况节省75W左右。3秒钟内可以将节点唤醒，用户几乎不会受到影响系统会根据应用运行情况自动将空闲节点置于待机状态，同时将信息记入数据库以便查询。

七用户配额解决方案 -----解决传统用户资源分配中的不足
1 高性能计算资源犹如用电、用水、供暖一样，都是面向公众服务的公共资源。 2 由于服务对象人数众多，要求多样化，水平参差不齐，对公共资源的管理是摆在管理者面前的一个难题。 3 如何实现精确的、高效的、有控制力的管理？ 4 管理模式的改变。先管理、再使用，一切尽在掌握中先使用，再管理，管理不可控

资源管理器(Gridview, PBS, LL, LSF)
ClusQuota实时配额流程 0 设定用户的计算资源配额(预充值) 1 用户提交作业 2 根据作业所需的资源类型进行询价计费系统 3 如果配额足够，做预授权 4 作业开始运行 6 5 作业运行结束，统计实际使用情况 2 3 6 撤销预授权，并实时计费资源调度器 4 资源管理器(Gridview, PBS, LL, LSF) 5 实时配额 1 预授权询价预授权用户配额(预充值) 81

高性能计算的现状和发展解决方案中心高性能计算方案部.

Similar presentations

Presentation on theme: "高性能计算的现状和发展解决方案中心高性能计算方案部."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

高性能计算的现状和发展 解决方案中心 高性能计算方案部.

Similar presentations

Presentation on theme: "高性能计算的现状和发展 解决方案中心 高性能计算方案部."— Presentation transcript:

Similar presentations

About project

反馈

高性能计算的现状和发展解决方案中心高性能计算方案部.

Presentation on theme: "高性能计算的现状和发展解决方案中心高性能计算方案部."— Presentation transcript: