高性能计算与高性能计算机.

Slides:



Advertisements
Similar presentations
C enter of C omputational C hemistry 并行计算机与并行计算 张鑫 理论与计算化学国际合作研究中心 分子反应动力学国家重点实验室.
Advertisements

高级服务器设计和实现 1 —— 基础与进阶 余锋
Welcome to the world of Computer Organization 计算机组成原理
第一章 多核概述 使用多核了吗? 摩尔定律——芯片的晶体管数量每一年半左右增长一倍。 处理器性能不断提高主要基于两个原因:
并行计算机体系结构 东南大学计算机学院 任国林
计算机系统结构 主讲:任国林
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
赵永华 中科院计算机网络信息中心 超级计算中心
§5 并发性发展及计算机系统的分类 并行性概念 计算机系统的并行性发展 并行处理系统的结构与多机系统的耦合度 计算机系统的分类.
初级会计电算化 (用友T3) 制作人:张爱红.
电子数字计算机 计算机性能 计算机硬件 计算机软件 多级层次结构
信息科学与工程学院计算机科学系 2006年9月—2007年1月
第11章 计算机系统 计算机系统概述 分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机
计算机组成原理 东南大学计算机学院 任国林
实用操作系统概念 张惠娟 副教授 1.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
Oracle数据库 Oracle 子程序.
UROVO—i6200 外观设计 建议零售价格:XX元 上市时间:2014年 月 12 日 目标人群:快递、物流、医院、零售、快销
企业级云计算 A Enterprise Cloud Serivce
“服务器服务于Internet”报告会 倪光南 1999年7月6日
高性能计算和高性能计算机 赵崇山
计算机基础知识 丁家营镇九年制学校 徐中先.
国家高技术研究发展计划 香港大学网格节点 Presented by Cho-Li Wang
                                                                                                                                                                
Greatest Common Divisor ---最大公约数
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
CPU資料處理 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
高效能運算服務 (High Performance Computing) 建置之經驗分享
核心系统数据库组 余锋 了解内存 核心系统数据库组 余锋
存储系统.
SOA – Experiment 3: Web Services Composition Challenge
华为—E8372h- 155 外观设计 产品类型:数据卡 建议零售价格:299元 上市时间:2017年6月7日 目标人群:大众
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
并行算法实践 上篇 并行程序设计导论.
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
数 控 技 术 华中科技大学机械科学与工程学院.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
产品介绍 MF825C 产品类型:上网卡 建议零售价格:599元 上市时间: 2014年 2 月20日 目标人群:商务人士、白领、IT潮人
逆向工程-汇编语言
数据挖掘工具性能比较.
CPU结构和功能.
计算机系统结构 第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统** 第五章 标量处理机 第六章 向量处理机
計算機概論 第3章 計算機組織與結構概觀.
Instructions: Language of the Machine
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
厂商—型号 荣耀-HiRouter-H1 外观设计 产品类型:无线路由器 建议零售价格:149元 上市时间:2017 年 5月
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
产品介绍 TOPOLF-T198 产品类型:4G MIFI 建议零售价格:699元 上市时间: 2015年1月 目标人群:差旅人士
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
iSIGHT 基本培训 使用 Excel的栅栏问题
长春理工大学 电工电子实验教学中心 数字电路实验 数字电路实验室.
南大天文系的 计算环境 黄永锋 南京大学天文系
第八章 总线技术 8.1 概述 8.2 局部总线 8.3 系统总线 8.4 通信总线.
魏新宇 MATLAB/Simulink 与控制系统仿真 魏新宇
临界区问题的硬件指令解决方案 (Synchronization Hardware)
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Google的云计算 分布式锁服务Chubby.
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
第十七讲 密码执行(1).
第十二讲 密码执行(上).
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
质量控制(QC)模式 BrookFIELD.
Presentation transcript:

高性能计算与高性能计算机

总结 什么是高性能计算和高性能计算机 什么是集群(Cluster),怎么配置集群 什么样的用户需要高性能计算机 高性能用户都关心哪些问题 高性能计算机销售和一般服务器销售的区别

提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

高性能计算市场 IDC对08年服务器市场的预测: HPC市场既是一个传统的市场,又是一个新兴的、高速发展的市场 高:定位高端用户 标杆项目,影响力大 平民化趋势 快速发展

高性能计算市场 一些厂商的表现 国家的政策 … … … 高性能计算的市场正处于发展阶段 技术的发展 CPU多核化的趋势 例如:Intel 自主创新 … … … 技术的发展 CPU多核化的趋势 多进程、多线程并行化的趋势 其他 并行计算机上的广泛应用 高端下移 … … … 高性能计算的市场正处于发展阶段

提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

计算所/曙光和高性能计算 1956年成立,我国第一个计算技术研究所,被誉为“我国计算机事业的摇篮” 第一台电子管计算机(103机) 第一台大型晶体管计算机(109机) 第一台大型集成电路计算机(111机) 第一台向量计算机(757机) 第一台大规模并行计算机(曙光1000) 被国防部门誉为“功勋机” 109丙机,为两弹一星做出过重要贡献

计算所/曙光和高性能计算 1993.10 曙光一号 1995.5 曙光1000 1998.12 曙光2000 I 1993.10 曙光一号 16个处理器,每秒6.4亿次 使中国成为少数能生产制造MPP的国家之一 1995.5 曙光1000 36个节点机,每秒25.6亿次 1998.12 曙光2000 I 68个节点机,每秒200亿次 2000.1 曙光2000 II 164个CPU,每秒1117亿次 中国第一个SMP集群

计算所/曙光和高性能计算 2001.10 曙光3000 2003.3 曙光4000L 2004.6 曙光4000A 每秒4032亿次 2001.10 曙光3000 每秒4032亿次 SUMA标准诞生 2003.3 曙光4000L 644个CPU,每秒3万亿次 2004.6 曙光4000A 2560颗CPU,每秒10万亿次 名列世界第十,成为除美日以外第 一个进入世界“top500”前10名 的国家

计算所/曙光和高性能计算 中国登峰造极的最高性能的计算机系统 运算速度超过百万亿次的曙光5000,将使中国成为美国之后第二个能生产百万亿次超级计算机的国家 曙光5000共采用3万颗CPU核,峰值230万亿次,Linpack效率超过70% 曙光5000计算能力超过曙光4000A十多倍,而体积、功耗与曙光4000A相同,代表了中国高性能计算机发展的最高水平

计算所/曙光和高性能计算 2005年 2006年 2007年

提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

什么是高性能计算? 高性能计算 高性能计算---并行计算 HPC:High Performance Compute 并行计算(Parallel Computing) 高端计算(High-end Parallel Computing) 高性能计算(High Performance Computing) 超级计算(Super Computing)

什么是高性能计算? 计算科学与传统的两种科学,即理论科学和实验科学,并立被认为是人类认识自然的三大支柱,他们彼此相辅相成地推动科学发展与社会进步。在许多情况下,或者是理论模型复杂甚至理论尚未建立,或者实验费用昂贵甚至无法进行时,计算就成了求解问题的唯一或主要的手段。

为什么要做高性能计算 ——应用需求

为什么要做高性能计算 人类对计算及性能的要求是无止境的 问题: 科学和工程问题的数值模拟与仿真 从系统的角度:集成系统资源,以满足不断增长的对性能和功能的要求 从应用的角度:适当分解应用,以实现更大规模或更细致的计算 问题: 科学和工程问题的数值模拟与仿真 计算密集 数据密集 网络密集 三种混合

什么人需要高性能计算 高性能计算机都在什么地方使用?都卖到哪儿去? 国外状况 国内状况

提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

什么是高性能计算机? 由多个计算单元组成,运算速度快、存储容量大、可靠性高的计算机系统。 也称为:巨型计算机、超级计算机 目前任何高性能计算和超级计算都离不开使用并行技术,所以高性能计算机肯定是并行计算机。

其发展历程可以简单的分为两个时代 专用时代 包括向量机,MPP系统,SGI NUMA 系统,SUN大型SMP系统,也包括我国的神威,银河,曙光1000等。 之所以称为“专用”,并不是说它们只能运行某种应用,是指它们的组成部件是专门设计的,它们的CPU板,内存板,I/O板,操作系统,甚至I/O系统,都是不能在其它系统中使用的。由于技术上桌面系统与高端系统的巨大差异,和用户群窄小。 普及时代 高性能计算机价格下降,应用门槛降低,应用开始普及。两个技术趋势起到重要作用。 商品化趋势使得大量生产的商品部件接近了高性能计算机专有部件 标准化趋势使得这些部件之间能够集成一个系统中,其中X86处理器、以太网、内存部件、Linux都起到决定性作用。 机群系统是高性能计算机的一种,它的技术基础和工业基础都是商品化和标准化。

高性能计算机系统架构 并行向量机 SMP DSM(NUMA) MPP,节点可以是单处理器的节点,也可以是SMP,DSM Cluster Constellation

高性能计算机的制造厂商 Cray SGI IBM 曙光 银河 神威

并行计算机系统类型 Flynn分类: 结构模型: 访存模型: SISD, SIMD, MIMD, MISD PVP, SMP, MPP, DSM, COW 访存模型: UMA, NUMA, COMA, CC-NUMA, NORMA

并行计算机分类 Flynn分类 现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上,又可以分为: SISD(Single-Instruction Single-Data) SIMD(Single-Instruction Multi-Data) MISD(Multi-Instruction Single-Data) MIMD(Multi-Instruction Multi-Data) 现代高性能计算机都属于MIMD。MIMD从结构上和访存方式上,又可以分为: 结构模型:PVP, SMP, MPP, DSM, COW 访存模型:UMA, NUMA, COMA, CC-NUMA, NORMA

结构模型

对称多处理机系统(SMP) SMP 对称式共享存储:任意处理器可直接访问任意内存地址,且访问延迟、带宽、机率都是等价的; 系统是对称的; 微处理器: 一般少于64个; 处理器不能太多, 总线和交叉开关的一旦作成难于扩展; 例子: IBM R50, SGI Power Challenge, SUN Enterprise, 曙光一号;

分布式共享存储系统(DSM) DSM 分布共享存储: 内存模块物理上局部于各个处理器内部,但逻辑上(用户)是共享存储的; 这种结构也称为基于Cache目录的非一致内存访问(CC-NUMA)结构;局部与远程内存访问的延迟和带宽不一致,3-10倍高性能并行程序设计注意; 与SMP的主要区别:DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器; 微处理器: 16-128个,几百到千亿次; 代表: SGI Origin 2000, Cray T3D;

大规模并行计算机系统(MPP) MPP 物理和逻辑上均是分布内存 能扩展至成百上千个处理器(微处理器或向量处理器) 采用高通信带宽和低延迟的互联网络 (专门设计和定制的) 一种异步的MIMD机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用; 代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙光1000

机群系统(Cluster) Cluster 每个节点都是一个完整的计算机 各个节点通过高性能网络相互连接 网络接口和I/O总线松耦合连接 每个节点有完整的操作系统 曙光2000、 3000、4000, ASCI Blue Mountain

访存模型 NORMA: UMA: NUMA: 多处理机(单地址空间共享存储器) UMA: Uniform Memory Access NUMA: Nonuniform Memory Access 多计算机(多地址空间非共享存储器) NORMA: No-Remote Memory Access

结构模型--访存模型 UMA: NUMA: NORMA:

多处理机 && 多计算机 多处理机 (共享存储) 多计算机 (分布式存储) UMA: NORMA: NUMA:

并行计算机的性能指标 名 称 符 号 含 意 单 位 机器规模 n 处理器的数目 无量纲 时钟速率 f 时钟周期长度的倒数 MHZ 工作负载 名 称 符 号 含 意 单 位 机器规模 n 处理器的数目 无量纲 时钟速率 f 时钟周期长度的倒数 MHZ 工作负载 W 计算操作的数目 Mflop 顺序执行时间 T1 程序在单处理机上的运行时间 s(秒) 并行执行时间 T n 程序在并行机上的运行时间 速度 R n = W/T n 每秒百万次浮点运算 Mflop/s 加速 Sn=T1/Tn 衡量并行机有多快 效率 En = S n/n 衡量处理器的利用率 峰值速度 R peak = n R’ peak 所有处理器峰值速度之积 , R’peak为一个处理器的峰值速度 利用率 U =R n/R peak 可达速度与峰值速度之比 通信延迟 to 传送0-字节或单字的时间 Μs 渐近带宽 r∞ 传送长消息通信速率 MB/s

衡量系统性能的主要指标(1) MIPS(百万条指令每秒) 理论计算:处理器的时钟频率与平均每条指令所需的时钟周期(Cycles Per Instruction)的比值 MIPS = clock rate / CPI = (number of Instructions) / (CPU time) 实际数值:对于一个应用(程序),指令数目与运行时间的比值 MIPS’= (number of Instructions) / (execution time)

衡量系统性能的主要指标(2) MFLOPS(百万次浮点运算每秒) 理论计算:系统的浮点计算部件每秒可以做的浮点计算次数; MFLOPS = (number of Floating Point compute Unit)×N N为每个浮点计算部件一个周期内可以做的最多浮点操作数,对于目前常见的微处理器,一般为1-4; 实际数值:对于一个应用,浮点运算数目与运行时间的比值; MFLOPS’ = (number of floating operations) / (execution time)

两个指标的缺点 都不能全面表征系统的性能 MIPS指标比较适用于事务处理领域; 不同系统的指令不同,一条指令的功能和复杂度差别很大, 如IBM的大型主机(Mainframe),价格达到千万元的大型机(含配套软件),其MIPS值一般为5-10,不及价值数千元的Pentium4 PC; 非计算密集型的应用(事务处理)对I/O要求高,计算密集型的应用(图形程序)对主频要求高。用户对可靠性等特殊要求; 应用的需求不同,高性能计算领域也是“通才”难求,各有所长; 某些特殊类型计算机适合特定的应用。

两个指标的缺点 理论计算和实际测试的差别 对于一个具体的应用,可获得的实际性能与理论峰值有相当大的差距,即效率低的问题; 应用效率成为高性能计算的核心问题之一,受到普遍关注。

加速比定律 在并行计算系统,并行算法(并行程序)的执行速度相对于串行算法(串行程序)加快的倍数,就是该并行算法(并行程序)的加速比; 加速比是衡量“并行收益”的重要指标; Amdahl定律适用于固定计算规模的加速比性能描述,Gustafson定律适用于可扩展问题。

Amdahl定律 S = (WS+WP)/(WS+WP/p) = 1/(1/p+f(1-1/p)) 显然,当p→∞时,S=1/f,即对于固定规模的问题,并行系统所能达到的加速上限为1/f 一度引发了并行界部分人士的悲观情绪

Gustafson定律 S‘=(WS+pwp)/(WS+WP) =p-f(p-1)=f+p(1-f) 并行计算是为了解决大规模并行问题,可并行部分的比例是可扩大的 加速比与处理器数成斜率为(1-f)的线性关系 这样串行比例f就不再是程序扩展性的瓶颈, 当然,f越低,斜率会越大,加速性能越好。

Linpack 采用主元高斯消去法求解双精度稠密线性代数方 程组,结果按每秒浮点运算次数(flops)表示。 包含三类测试,问题规模与优化选择各不相同: 100×100测试 ,在该测试中,不允许对Linpack测试程序进行任何修改(包括注释行) 1000×1000测试,在该测试中,允许对算法和软件进行修改或替换,并尽量利用系统的硬件特点,以达到尽可能高的性能。但是所有的优化都必须保持和标准算法如高斯消去法相同的相对精度,而且必须使用Linpack的主程序进行调用。

Linpack(续) HPL测试 针对大规模并行计算系统的测试,其名称为High Performance Linpack (HPL),是第一个标准的公开版本并行Linpack测试软件包, 用于TOP500与国内TOP100排名依据。 使用者可以改变问题规模。 有相当大的优化空间。

NAS Parallel Benchmark NPB套件由八个程序组成 每个基准测试有五类:A、B、C、D、W (工作站)。A最小,D最大 NPB套件以每秒百万次运算为单位输出结果。 整数排序(IS) 快速Fourier变换(FT) 多栅格基准测试(MG) 共轭梯度(CG) 基准测试 稀疏矩阵分解(LU) 五对角方程(SP)和块状三角(BT)求解 密集并行(EP)

高性能计算机的最新发展状况 顶天立地 从单纯关注性能到综合评价 高端: 低端: 高性能 vs 高效能 性能 vs 使用

提纲 高性能市场概要 曙光和高性能计算机 什么是高性能计算 什么是高性能计算机 集群系统

什么是机群系统 机群系统(Cluster) 利用标准网络将一台台普通服务器或者PC机连接起来,为使用者提供更高的计算能力和存储能力并为使用者提供单一系统映象的系统。 单一系统映象 使用者在使用机群系统的时候感觉上就象使用一个单独的计算机系统一样。 单一系统映象实现方法:硬件层、操作系统层、软件层

机群系统的优势 极高的性价比 大型机的主流 良好的可扩展性 更高的可管理性 更低的使用维护成本 更好的可使用性 机群使用越来越广泛 更改的系统鲁棒性 更多的应用支持 机群使用越来越广泛 应用领域越来越多

机群系统的应用领域 信息服务 基因信息 气象预报 汽车制造 生物物理 石油勘探 数学 船舶制造

1993—2006年 高性能计算机在TOP500中的变化

机群成为高性能计算机的主流 Architecture Count Share % TOP500排名(2008年6月) Cluster 400 80 % MPP 98 19.6 % Constellations 2 0.4 % Total 500 100% TOP500排名(2008年6月)

机群系统的分类 高性能机群 负载均衡机群 高可用机群

高性能机群系统架构

高性能机群层次架构 应用层 机群操作系统层(DCOS) 系统软件层(OS, 编译器) 硬件层(节点, 网络等)

曙光4000系列机群系统 节点机 网络 存储 机群支撑系统 SKVM 并行环境 编译环境 高性能数学库 曙光机群操作系统(DCAS) 机群管理系统、机群监控系统、机群部署系统、作业管理系统、并行文件系统

曙光机群十大标准化技术 机群快速部署技术 异构平台 整合技术 复杂机群简易管理技术 机群负载均衡技术 机群安全管理技术 一体化监控技术 智能机柜技术 机群安全管理技术 机群并行吞吐技术 机群快速部署技术 远程/异地操作控制技术 行业定制 优化技术 机群负载均衡技术 曙光机群服务器十大标准化技术

总结 什么是高性能计算和高性能计算机? 集群(Cluster)是当今高性能计算机的主流 什么样的用户需要高性能计算机? 用户都关心哪些问题? 高性能计算机销售和一般服务器销售的区别