Presentation is loading. Please wait.

Presentation is loading. Please wait.

高性能计算与高性能计算机.

Similar presentations


Presentation on theme: "高性能计算与高性能计算机."— Presentation transcript:

1 高性能计算与高性能计算机

2 总结 什么是高性能计算和高性能计算机 什么是集群(Cluster),怎么配置集群 什么样的用户需要高性能计算机 高性能用户都关心哪些问题
高性能计算机销售和一般服务器销售的区别

3 提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

4 高性能计算市场 IDC对08年服务器市场的预测: HPC市场既是一个传统的市场,又是一个新兴的、高速发展的市场
高:定位高端用户 标杆项目,影响力大 平民化趋势 快速发展

5 高性能计算市场 一些厂商的表现 国家的政策 … … … 高性能计算的市场正处于发展阶段 技术的发展 CPU多核化的趋势 例如:Intel
自主创新 … … … 技术的发展 CPU多核化的趋势 多进程、多线程并行化的趋势 其他 并行计算机上的广泛应用 高端下移 … … … 高性能计算的市场正处于发展阶段

6 提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

7 计算所/曙光和高性能计算 1956年成立,我国第一个计算技术研究所,被誉为“我国计算机事业的摇篮” 第一台电子管计算机(103机)
第一台大型晶体管计算机(109机) 第一台大型集成电路计算机(111机) 第一台向量计算机(757机) 第一台大规模并行计算机(曙光1000) 被国防部门誉为“功勋机” 109丙机,为两弹一星做出过重要贡献

8 计算所/曙光和高性能计算 1993.10 曙光一号 1995.5 曙光1000 1998.12 曙光2000 I
曙光一号 16个处理器,每秒6.4亿次 使中国成为少数能生产制造MPP的国家之一 曙光1000 36个节点机,每秒25.6亿次 曙光2000 I 68个节点机,每秒200亿次 曙光2000 II 164个CPU,每秒1117亿次 中国第一个SMP集群

9 计算所/曙光和高性能计算 2001.10 曙光3000 2003.3 曙光4000L 2004.6 曙光4000A 每秒4032亿次
曙光3000 每秒4032亿次 SUMA标准诞生 曙光4000L 644个CPU,每秒3万亿次 曙光4000A 2560颗CPU,每秒10万亿次 名列世界第十,成为除美日以外第 一个进入世界“top500”前10名 的国家

10 计算所/曙光和高性能计算 中国登峰造极的最高性能的计算机系统
运算速度超过百万亿次的曙光5000,将使中国成为美国之后第二个能生产百万亿次超级计算机的国家 曙光5000共采用3万颗CPU核,峰值230万亿次,Linpack效率超过70% 曙光5000计算能力超过曙光4000A十多倍,而体积、功耗与曙光4000A相同,代表了中国高性能计算机发展的最高水平

11 计算所/曙光和高性能计算 2005年 2006年 2007年

12 提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

13 什么是高性能计算? 高性能计算 高性能计算---并行计算 HPC:High Performance Compute
并行计算(Parallel Computing) 高端计算(High-end Parallel Computing) 高性能计算(High Performance Computing) 超级计算(Super Computing)

14 什么是高性能计算? 计算科学与传统的两种科学,即理论科学和实验科学,并立被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。

15 为什么要做高性能计算 ——应用需求

16 为什么要做高性能计算 人类对计算及性能的要求是无止境的 问题: 科学和工程问题的数值模拟与仿真
从系统的角度:集成系统资源,以满足不断增长的对性能和功能的要求 从应用的角度:适当分解应用,以实现更大规模或更细致的计算 问题: 科学和工程问题的数值模拟与仿真 计算密集 数据密集 网络密集 三种混合

17 什么人需要高性能计算 高性能计算机都在什么地方使用?都卖到哪儿去? 国外状况 国内状况

18 提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

19 什么是高性能计算机? 由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。 也称为:巨型计算机、超级计算机
目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。

20 其发展历程可以简单的分为两个时代 专用时代 包括向量机,MPP系统,SGI NUMA 系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。 之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门设计的,它们的CPU板,内存板,I/O板,操作系统,甚至I/O系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。 普及时代 高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。 商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件 标准化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。 机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。

21 高性能计算机系统架构 并行向量机 SMP DSM(NUMA) MPP,节点可以是单处理器的节点,也可以是SMP,DSM Cluster
Constellation

22 高性能计算机的制造厂商 Cray SGI IBM 曙光 银河 神威

23 并行计算机系统类型 Flynn分类: 结构模型: 访存模型: SISD, SIMD, MIMD, MISD
PVP, SMP, MPP, DSM, COW 访存模型: UMA, NUMA, COMA, CC-NUMA, NORMA

24 并行计算机分类 Flynn分类 现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上,又可以分为:
SISD(Single-Instruction Single-Data) SIMD(Single-Instruction Multi-Data) MISD(Multi-Instruction Single-Data) MIMD(Multi-Instruction Multi-Data) 现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上,又可以分为: 结构模型:PVP, SMP, MPP, DSM, COW 访存模型:UMA, NUMA, COMA, CC-NUMA, NORMA

25 结构模型

26 对称多处理机系统(SMP) SMP 对称式共享存储:任意处理器可直接访问任意内存地址,且访问延迟、带宽、机率都是等价的; 系统是对称的;
微处理器: 一般少于64个; 处理器不能太多, 总线和交叉开关的一旦作成难于扩展; 例子: IBM R50, SGI Power Challenge, SUN Enterprise, 曙光一号;

27 分布式共享存储系统(DSM) DSM 分布共享存储: 内存模块物理上局部于各个处理器内部,但逻辑上(用户)是共享存储的; 这种结构也称为基于Cache目录的非一致内存访问(CC-NUMA)结构;局部与远程内存访问的延迟和带宽不一致,3-10倍高性能并行程序设计注意; 与SMP的主要区别:DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器; 微处理器: 个,几百到千亿次; 代表: SGI Origin 2000, Cray T3D;

28 大规模并行计算机系统(MPP) MPP 物理和逻辑上均是分布内存 能扩展至成百上千个处理器(微处理器或向量处理器)
采用高通信带宽和低延迟的互联网络 (专门设计和定制的) 一种异步的MIMD机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用; 代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙光1000

29 机群系统(Cluster) Cluster 每个节点都是一个完整的计算机 各个节点通过高性能网络相互连接 网络接口和I/O总线松耦合连接
每个节点有完整的操作系统 曙光2000、 3000、4000, ASCI Blue Mountain

30 访存模型 NORMA: UMA: NUMA: 多处理机(单地址空间共享存储器) UMA: Uniform Memory Access
NUMA: Nonuniform Memory Access 多计算机(多地址空间非共享存储器) NORMA: No-Remote Memory Access

31 结构模型--访存模型 UMA: NUMA: NORMA:

32 多处理机 && 多计算机 多处理机 (共享存储) 多计算机 (分布式存储) UMA: NORMA: NUMA:

33 并行计算机的性能指标 名 称 符 号 含 意 单 位 机器规模 n 处理器的数目 无量纲 时钟速率 f 时钟周期长度的倒数 MHZ 工作负载
名 称 符 号 含 意 单 位 机器规模 n 处理器的数目 无量纲 时钟速率 f 时钟周期长度的倒数 MHZ 工作负载 W 计算操作的数目 Mflop 顺序执行时间 T1 程序在单处理机上的运行时间 s(秒) 并行执行时间 T n 程序在并行机上的运行时间 速度 R n = W/T n 每秒百万次浮点运算 Mflop/s 加速 Sn=T1/Tn 衡量并行机有多快 效率 En = S n/n 衡量处理器的利用率 峰值速度 R peak = n R’ peak 所有处理器峰值速度之积 , R’peak为一个处理器的峰值速度 利用率 U =R n/R peak 可达速度与峰值速度之比 通信延迟 to 传送0-字节或单字的时间 Μs 渐近带宽 r∞ 传送长消息通信速率 MB/s

34 衡量系统性能的主要指标(1) MIPS(百万条指令每秒)
理论计算:处理器的时钟频率与平均每条指令所需的时钟周期(Cycles Per Instruction)的比值 MIPS = clock rate / CPI = (number of Instructions) / (CPU time) 实际数值:对于一个应用(程序),指令数目与运行时间的比值 MIPS’= (number of Instructions) / (execution time)

35 衡量系统性能的主要指标(2) MFLOPS(百万次浮点运算每秒) 理论计算:系统的浮点计算部件每秒可以做的浮点计算次数;
MFLOPS = (number of Floating Point compute Unit)×N N为每个浮点计算部件一个周期内可以做的最多浮点操作数,对于目前常见的微处理器,一般为1-4; 实际数值:对于一个应用,浮点运算数目与运行时间的比值; MFLOPS’ = (number of floating operations) / (execution time)

36 两个指标的缺点 都不能全面表征系统的性能 MIPS指标比较适用于事务处理领域;
不同系统的指令不同,一条指令的功能和复杂度差别很大, 如IBM的大型主机(Mainframe),价格达到千万元的大型机(含配套软件),其MIPS值一般为5-10,不及价值数千元的Pentium4 PC; 非计算密集型的应用(事务处理)对I/O要求高,计算密集型的应用(图形程序)对主频要求高。用户对可靠性等特殊要求; 应用的需求不同,高性能计算领域也是“通才”难求,各有所长; 某些特殊类型计算机适合特定的应用。

37 两个指标的缺点 理论计算和实际测试的差别 对于一个具体的应用,可获得的实际性能与理论峰值有相当大的差距,即效率低的问题;
应用效率成为高性能计算的核心问题之一,受到普遍关注。

38 加速比定律 在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比;
加速比是衡量“并行收益”的重要指标; Amdahl定律适用于固定计算规模的加速比性能描述,Gustafson定律适用于可扩展问题。

39 Amdahl定律 S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p))
显然,当p→∞时,S=1/f,即对于固定规模的问题,并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪

40 Gustafson定律 S‘=(WS+pwp)/(WS+WP) =p-f(p-1)=f+p(1-f)
并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的 加速比与处理器数成斜率为(1-f)的线性关系 这样串行比例f就不再是程序扩展性的瓶颈, 当然,f越低,斜率会越大,加速性能越好。

41 Linpack 采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数(flops)表示。
包含三类测试,问题规模与优化选择各不相同: 100×100测试 ,在该测试中,不允许对Linpack测试程序进行任何修改(包括注释行) 1000×1000测试,在该测试中,允许对算法和软件进行修改或替换,并尽量利用系统的硬件特点,以达到尽可能高的性能。但是所有的优化都必须保持和标准算法如高斯消去法相同的相对精度,而且必须使用Linpack的主程序进行调用。

42 Linpack(续) HPL测试 针对大规模并行计算系统的测试,其名称为High Performance Linpack (HPL),是第一个标准的公开版本并行Linpack测试软件包, 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相当大的优化空间。

43 NAS Parallel Benchmark
NPB套件由八个程序组成 每个基准测试有五类:A、B、C、D、W (工作站)。A最小,D最大 NPB套件以每秒百万次运算为单位输出结果。 整数排序(IS) 快速Fourier变换(FT) 多栅格基准测试(MG) 共轭梯度(CG) 基准测试 稀疏矩阵分解(LU) 五对角方程(SP)和块状三角(BT)求解 密集并行(EP)

44 高性能计算机的最新发展状况 顶天立地 从单纯关注性能到综合评价 高端: 低端: 高性能 vs 高效能 性能 vs 使用

45 提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

46 什么是机群系统 机群系统(Cluster) 利用标准网络将一台台普通服务器或者PC机连接起来,为使用者提供更高的计算能力和存储能力并为使用者提供单一系统映象的系统。 单一系统映象 使用者在使用机群系统的时候感觉上就象使用一个单独的计算机系统一样。 单一系统映象实现方法:硬件层、操作系统层、软件层

47 机群系统的优势 极高的性价比 大型机的主流 良好的可扩展性 更高的可管理性 更低的使用维护成本 更好的可使用性 机群使用越来越广泛
更改的系统鲁棒性 更多的应用支持 机群使用越来越广泛 应用领域越来越多

48 机群系统的应用领域 信息服务 基因信息 气象预报 汽车制造 生物物理 石油勘探 数学 船舶制造

49 1993—2006年 高性能计算机在TOP500中的变化

50 机群成为高性能计算机的主流 Architecture Count Share % TOP500排名(2008年6月) Cluster 400
80 % MPP 98 19.6 % Constellations 2 0.4 % Total 500 100% TOP500排名(2008年6月)

51 机群系统的分类 高性能机群 负载均衡机群 高可用机群

52 高性能机群系统架构

53 高性能机群层次架构 应用层 机群操作系统层(DCOS) 系统软件层(OS, 编译器) 硬件层(节点, 网络等)

54 曙光4000系列机群系统 节点机 网络 存储 机群支撑系统 SKVM 并行环境 编译环境 高性能数学库 曙光机群操作系统(DCAS)
机群管理系统、机群监控系统、机群部署系统、作业管理系统、并行文件系统

55 曙光机群十大标准化技术 机群快速部署技术 异构平台 整合技术 复杂机群简易管理技术 机群负载均衡技术 机群安全管理技术
一体化监控技术 智能机柜技术 机群安全管理技术 机群并行吞吐技术 机群快速部署技术 远程/异地操作控制技术 行业定制 优化技术 机群负载均衡技术 曙光机群服务器十大标准化技术

56 总结 什么是高性能计算和高性能计算机? 集群(Cluster)是当今高性能计算机的主流 什么样的用户需要高性能计算机? 用户都关心哪些问题?
高性能计算机销售和一般服务器销售的区别

57


Download ppt "高性能计算与高性能计算机."

Similar presentations


Ads by Google