赵永华 中科院计算机网络信息中心 超级计算中心

Slides:



Advertisements
Similar presentations
陳旺全醫師主講 健康養生茶飲 明目菊花茶 明目菊花茶 成分:菊花五錢、 500c.c 熱水沖泡 成分:菊花五錢、 500c.c 熱水沖泡 功效:可治療急慢性結膜炎、頭暈 功效:可治療急慢性結膜炎、頭暈 頭痛、口苦、口乾、高血壓 頭痛、口苦、口乾、高血壓.
Advertisements

颐高集团项目中心 海亮地产开发模式研究报告. 目 录 目 录 第四部分:海亮地产高周转模式执行 第二部分:海亮地产高周转模式原因 第三部分:海亮地产高周转模式内涵 第一部分:海亮地产企业背景 第五部分:海亮地产高周转支撑体系.
六大類食物 五穀根莖類 六大類食物 油脂類 蛋魚肉豆類 奶類 蔬菜類 水果類. 五穀根莖類 : 提供熱量 : 部份蛋白質,維生素,礦物質,及膳食纖維 包含麵 ( 及麵包饅頭 ) ,飯類,蕃薯等食物 也就是一般所稱的 " 主食 " ( 蘿蔔不是這一類,是屬於蔬菜類喔! ) 飲食建議吃三到六碗 並推薦攝取全穀類食品.
正確睡午睡精神更好 正確睡午睡 精神更好 可降血壓 增加思考能力 懶懶的冬天加 上星期一又是假日後上班,如果能夠在 中午補個眠,稍微休息一下,對於精神 的提振及下午工作效率都有幫助。但冬 天睡午覺要注意保暖以及水分的補充, 避免受涼或是血液循環不好,造成手或 腿麻痛,注意這些小地方可以讓睡午睡 更健康!
揮別電腦族疲勞症候群 主講人 : 陳潮宗 中醫師. 常有症狀一 起因&症狀: 起因&症狀: 坐姿不正最易引起腰酸背痛、 過度看螢幕則眼睛疲勞酸痛。 治療重點: 治療重點:補固腰腎、明目保睛。
引言 高血壓自我健康管理包含飲食、 運動、 及健康生活型態三大方向。 飲食 是改善高血壓的重要部分, 並提 供飲食方式來改善高血壓。
人事室專題計畫業務報告 人事室 謝明峯 轉 一、專任助理注意事項 計畫案如有聘任專任助理者, 請依據「南 華大學專案助理報到程序單」內容, 將資 料繳交至人事室 ( 請於聘任到職日前繳交, 以免影響到本身權利 ) 。 離職儲金或勞工退休金 依勞工退休金條例相關規定,
山伯與英台在健康書院修業完 成後,一行人逗陣開開心心的 回自己的家鄉 …… 於是開啟了另一段 ~ 新梁祝的故事 ~ 在下 梁山伯 小女子 祝英台 我是 阿成 我是 阿香.
C enter of C omputational C hemistry 并行计算机与并行计算 张鑫 理论与计算化学国际合作研究中心 分子反应动力学国家重点实验室.
糖尿病的饮食控制 厦门长庚医院张翼翔. 糖尿病 糖尿病的发病率逐年增高 糖尿病的发病率逐年增高 糖尿病对健康和生命的危害 糖尿病对健康和生命的危害 心、脑、肾、神经等 心、脑、肾、神经等 糖尿病的表现和诊断 糖尿病的表现和诊断 糖尿病的治疗 — 终身治疗 糖尿病的治疗 — 终身治疗.
第八章 膳食與營養 第一節 均衡營養與膳食 年 7 月公布新版「每日飲食指南」, 依食物營養特性,分為六大類: 全榖根莖類 蔬菜類水果類 低脂乳品類 油脂與堅果種子類 豆魚肉蛋類 食全十美.
中醫臨床常見養生藥膳 臺 北 市 立 聯 合 醫 院中醫院區 院長 鄭振鴻. 壹、前言 在臺灣地處亞熱帶的氣候,冬季溫暖,夏 季炎熱,雨量多的特性。吃補的概念源自 中國大陸,但生活習性與食物亦有其地域 性,因此針對臺灣常用藥膳的食物與藥物 的性能作用,解析其效用、功能,了解食 物與人的關係,利用食物特性,藥物的效.
五年制精神医学本科生培养方案 刘哲宁 教授. 专业简介  精神医学是临床医学的一个重要分支,它是研究人 类精神活动的规律、防治精神疾病的一门重要学科。  掌握健康与疾病的概念。
青春期 女生可以早在八、九歲, 或晚到十三、四歲才進入 青春期。 男生早的在十、十一歲, 晚到十四、五歲,甚至更 遲才進入青春期。
高職生的早餐飲食習慣之研究 以市立士林高商為例 二年九班 李婷葦 二年九班 卓佳惠 二年九班 郭胤彣 關鍵字:早餐. 飲食習慣. 士林高商.
第八課 路 *課前預習 一 二 三 *題解 *作者介紹 *課文內容 一 、 、 、 *修辭回顧
請愛惜自己 衛生署日前公佈了去年國人的十大 死因統計,惡性腫瘤(癌症)又第 二十度蟬聯冠軍,而且是每四名死 亡人口中,就有一人「因癌而」,
E時代盛宴 健康123年菜發表會 新春新氣象,處於資訊蓬勃E時代的您,是否已構思好如何為自己及家人準備一桌健康、豐盛的年菜?隨著國人健康意識的提升,對年菜訴求也有別於傳統年菜四大特點-高油、高鹽、高糖、低纖,加上其繁瑣的製備過程,對講求速度及效率的E時代族群而言,已不符現今年菜簡單製備、健康需求性。在這距離農曆春節只剩短短二個星期,豐原醫院營養室關心您的健康、滿足您的胃蕾,推出「E時代盛宴-健康123-年菜發表會」,以「一高、二少、三低」的健康原則,利用家中減少烹調油量的鍋具,如:烤箱、電鍋、不沾鍋等,製
生活常規.
雅樂舞基本動作與身體探索 陳玉秀老師主授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」台灣3.0版授權釋出】
Welcome to the world of Computer Organization 计算机组成原理
嘴破怎麼辦? 嘴角或嘴唇內常常破一小傷口的人, 吃東西時真是痛苦萬分; 有的人試著補充維他命C及B群,
第 2 章 中央處理單元.
第一章 多核概述 使用多核了吗? 摩尔定律——芯片的晶体管数量每一年半左右增长一倍。 处理器性能不断提高主要基于两个原因:
并行计算机体系结构 东南大学计算机学院 任国林
计算机系统结构 主讲:任国林
清华大学计算机科学与技术系高性能计算研究所 郑纬民 教授 2017年3月
肺臟的藥膳介紹 台中慈濟醫院 中醫部 陳建仲.
位置的表示方法.
說明完後將會有一個小測驗歐! 要認真聽歐!
清华大学计算机科学与技术系高性能计算研究所 郑纬民 教授 2007年9月
优质护理的指导思想  以科学发展观为指导,贯彻落实《2011年公立医院改革试点工作安排》关于“推广优质护理服务”的部署和要求,结合全国卫生系统创先争优活动和“服务好、质量好、医德好,群众满意”的“三好一满意”活动,深化“以病人为中心”的服务理念,紧紧围绕“改革护理模式,履行护理职责,提供优质服务,提高护理水平”的工作宗旨,充分调动临床一线广大护士工作的积极性,按照《医院实施优质护理服务工作标准(试行)》,为人民群众提供全程、全面、优质的护理服务,保障医疗安全,改善患者体验,促进医患和谐。
系统简介 理财顾问 业务 是基于通信平台的技术优势,整合《理财周刊》、第一理财网、乾隆集团等合作伙伴提供的理财产品内容和权威的理财专家资源,以集中式呼叫中心为主的服务方式,让普通百姓可以享受到快捷、全面、专业、权威的资讯及投资理财的服务平台。
CPU 一、基本知识 二、常见品牌 三、评价指标 四、AMD VS Intel 五、单核与双核 六、多核
计算机组成原理 21世纪高校计算机应用技术系列规划教材 谭浩强 主编 作者:宋红 中国铁道出版社
信息科学与工程学院计算机科学系 2006年9月—2007年1月
宦官那些事儿 宦官那些事儿 主讲:小学部李永善 主讲:小学部李永善.
第11章 计算机系统 计算机系统概述 分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机
幸福大讲堂 也谈老年朋友的 “老有所□” 爸妈在线专家宣讲团 ——老年朋友如何乐度后半生概述 主讲:钱锡安
电视教育课 【5】 小学生行为习惯养成教育.
华南理工大学 陈虎 博士 多核处理器技术 华南理工大学 陈虎 博士
数字系统设计及VHDL实践 专题五 专用集成电路 设计中的并行算法 主 讲 人:徐向民 单 位:电子信息学院.
宁波爱地房产市场年报 郊五区
AMD Multicore Technology Leading to the Next Generation
“服务器服务于Internet”报告会 倪光南 1999年7月6日
清华大学计算机科学与技术系高性能计算研究所 郑纬民 教授 2007年10月
高效能運算服務 (High Performance Computing) 建置之經驗分享
并行计算实验上机 国家高性能计算中心(合肥).
并行算法实践.
Cuda 平行運算機制 報告者:林威辰.
MPI并行编程      报告人:李俊照.
第1章 Fortran概述 作为一门诞生于上个世纪50年代后半期的高级计算机语言,Fortran在这个C/C++、Java等新兴语言大行其道的时代仍然活跃在人们的视野之中。Fortran语言的长项在于数值计算,在科学研究和工程设计领域有着广泛的用途。在描述数学语言的自然性方面,Fortran同现存的其他高级语言相比有着明显的优势。对于科研工作者和工程技术人员而言,Fortran语言的易学性和易用性是公认的。
GPU分散式演算法設計與單機系統模擬(第二季)
5 Computer Organization (計算機組織).
ICA3PP 2000 Hong Kong December
基于MPI的并行程序设计 王振海 西北工业大学理学院 西北工业大学高性能计算研究与发展中心 2018/11/28.
胡維平 國立中正大學化學暨生物化學系 Aug. 30, 2017
High Performance Computing Service in NTUCC
计算机系统结构 第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统** 第五章 标量处理机 第六章 向量处理机
并行计算简介 高性能事业部:曹振南 年4月.
十二、并行程序设计基础.
計算機概論 第3章 計算機組織與結構概觀.
第一章.
Intel Compiler 安裝.
胡維平 國立中正大學化學暨生物化學系 Aug. 22, 2018
高级操作系统 Advanced Operating System
GPU based online noise filtering algorithm in LHASSO-WCDA
基于机群结构的 高性能服务器技术 清华大学 计算机系 高性能技术研究所 2000年7月1日.
第十章、核銷系統操作之注意事項.
第三章 计算机体系结构.
Presentation transcript:

赵永华 中科院计算机网络信息中心 超级计算中心 yhzhao@sccas.cn 体系结构与并行基础 赵永华 中科院计算机网络信息中心 超级计算中心 yhzhao@sccas.cn

并行机体系结构 22:16

并行计算机系统结构分类 Flynn分类:(instruction/data stream ) SISD(单指令单数据),SIMD(单指令多数据), MIMD, MISD 结构模型分类: PVP(并行向量机), SMP(共享内存), MPP(大规模并行计算机),DSM(分布共享内存),COW(集群) 访存模型分类: UMA(Uniform Memory-access,均匀存储访问模型) NUMA(non-UMA) COMA(Cache-Only Memory Architecture,全高速缓存内存体系结构) CC-NUMA(Cache-Coherent0一致性高速缓存非均匀存储访问模型), NORMA(No-Romate Memory Access 非远程存储访问模型) 22:16

结构模型

共享内存/对称多处理机系统(SMP) PVP:并行向量机 单地址空间 共享存储 UMA( Uniform Memory Access) SMP:共享内存并行机( Shared Memory Processors )。多个处理器通过交叉开关(Crossbar)或总线与共享内存互连。 任意处理器可直接访问任意内存地址,且访问延迟、带宽、几率都是等价的; 系统是对称的; 单地址空间 、共享存储、UMA; 并行编程方式: 通常采用OpenMP, 也可使用消息传递(MPI/PVM) 及HPF。 SGI Power Challenge , Dawning 1 22:16

MPP:大规模并行计算机系统 MPP:大规模并行计算机系统(Massively Parallel Processors)。由大量具有局部内存的计算结点通过高速系统网络联接而构成的并行处理系统. MPP 系统的系统网络通常具有某种拓扑结构(如tree, mesh, torus, hypercube). 物理和逻辑上均是分布内存 采用高通信带宽和低延迟的互联网络 (专门设计和定制的) NORMA或CC-NUMA 代表:CRAY T3E(2048), ASCI Red(3072), IBM SP2, 曙光1000 22:16

DSM:分布共享存储多处理机系统 DSM: 分布共享存贮并行机(Distributed Shared Memory),由结点(一般是SMP系统)通过高速消息传递网络互连而成。存贮系统在物理上分布、逻辑上共享。各结点有自己独立的寻址空间。 单地址空间 、分布共享 NUMA( Nonuniform Memory Access ) 与SMP的主要区别:DSM在物理上有分布在各个节点的局部内存从而形成一个共享的存储器; 代表: SGI Origin 2000, Cray T3D 22:16

Cluster:机群系统 Cluster(Now,Cow): 群集系统。将单个节点,用商业网络 :Ethernet,Myrinet,Quadrics,Infiniband,Switch等连结起来形成群集系统。 每个节点都是一个完整的计算机(SMP或DSM),有自己磁盘和操作系统 各个节点通过高性能网络相互连接 网络接口和I/O总线松耦合连接 每个节点有完整的操作系统 多地址空间、分布非共享、NORMA 通用性、可扩展性好,性价比高 22:16

访存模型 NORMA UMA NUMA: 多处理机(单地址空间共享存储器) UMA: Uniform Memory Access NUMA: Nonuniform Memory Access 多计算机(多地址空间非共享存储器) NORMA:No-Remote Memory Access 22:16

最新的TOP500计算机 22:16

最新的TOP500计算机 22:16

来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列第二 采用了自主设计的HPP体系结构、高效异构协同计算技术 来自Cray的美洲豹“Jaguar”,凭借1.75 PFlop/s(每秒1750万亿次)的计算能力傲视群雄。“Jaguar”采用了224162个处理器核心 来自中国的曙光“星云”系统以1271万亿次/s的峰值速度名列第二 采用了自主设计的HPP体系结构、高效异构协同计算技术 处理器是32nm工艺的六核至强X5650,并且采用了Nvidia Tesla C2050 GPU做协处理的用户编程环境; 异构体系结构 专用 通用 TOP500中85%的系统采用了四核处理器,而有5%的系统已经使用了六核或者更多核的处理器。 22:16

并行编程基础 22:16

并行计算软件环境 操作系统:UNIX、LINUX等 通信库:MPI 、PVM 数学库:如MKL,ScaLAPACK等 编译器: GNU Compiler 自由软件,持C/C++、Fortran77等语言 高性能计算中常用的: C/C++:GCC (GNU C/C++ Compiler) Fortran :gfortran; Intel Compiler 由Intel公司针对Intel处理器开发,支持Linux、Windows 支持C/C++(icc,mpicc:Intel C/C++ Compiler)、Fortran77/90/95(ifc: Intel Fortran Compiler) 支持多线程和OpenMP

并行程序设计方法 隐式并行程序设计: 常用传统的语言编程成顺序源编码,把“并行”交给编译器实现自动并行 程序的自动并行化是一个理想目标,存在难以克服的困难 语言容易,编译器难 显式并行程序设计: 在用户程序中出现“并行”的调度语句 显式并行是目前有效的并行程序设计方法。例如通过消息传递方式或多线程等 语言难,编译器容易 22:16

隐式并行(Implicit Parallel) 数据并行(Data Parallel) 共享变量(Shared Variable) 并行程序编程模型 隐式并行(Implicit Parallel) 数据并行(Data Parallel) 共享变量(Shared Variable) 消息传递(Message Passing) 22:16

隐式并行(Implicit Parallel) 概况: 程序员用熟悉的串行语言编写相应的串行程序 通过编译器和运行支持系统将串行程序自动转化为并行代码 特点: 语义简单 可移植性好 单线程,易于调试和验证正确性 细粒度并行 效率很低 22:16

数据并行(Data Parallel) 概况: SIMD的自然模型 局部计算和数据选路操作 例:HPF 特点: 单线程 并行操作于聚合数据结构(数组) 松散同步 单一地址空间 隐式交互作用 显式数据分布 优点:编程相对简单,串并行程序一致. 缺点:程序的性能在很大程度上依赖于所用的编译系统及用户对编译系统的了解. 并行粒度局限于数据级并行,粒度较小.

共享变量(Shared Variable) 概况: PVP, SMP, DSM的自然模型 特点: 多线程:SPMD, MPMD 异步 单一地址空间 显式同步 隐式数据分布 隐式通信 典型代表: OpenMP

消息传递(Message Passing) 概况: MPP、COW的自然模型 特点: 多进程异步并行 多地址空间 显式同步 显式数据映射和负载分配 显式通信 典型代表 MPI、PVM

并行编程模型标准 HPF, Fortran90 用于SMP, DSM OpenMP MPI, PVM 用于所有并行计算机 所有并行编程模型标准可分为以下三类: 数据并行 HPF, Fortran90 用于SMP, DSM 共享编程 OpenMP 消息传递 MPI, PVM 用于所有并行计算机 三者可混合使用: 如对以SMP为节点的Cluster来说, 可以在节点间进行消息传递,在节点内进行共享变量编程.

流水线并行(Pipeline Parallel) 主从并行(Master-Slave Parallel) 基本并行化方法 相并行(Phase Parallel) 流水线并行(Pipeline Parallel) 主从并行(Master-Slave Parallel) 分治并行(Divide and Conquer Parallel) 工作池并行(Work Pool Parallel) 22:16

加速比性能定律 并行系统的加速比简单的说就是指对于一个给定的应用,并行算法或并行程序的执行速度相对于串行算法或串行程序的执行速度加快了多少倍(既Sp=T1/Tp) 三种加速比性能定律: Amdahl定律:适用固定计算负载 S=(Ws+Wp)/(Ws+Wp/p) Gustafson定律:适用于可扩放问题 S=(Ws+pWp)/(Ws+Wp) Sun和Ni定律:受限于存储器 其中: P : 处理器数 W :问题规模 Ws:问题中的串行分量 Wp:并行分量 W=Ws+Wp S :加速比 S=穿行并行时间 f:串行分量的比率 f=Ws/W 阿姆达尔 古斯塔夫森 22:16

可扩展性与评测标准(一) 可扩展性(Scalability): 确定的应用背景下,计算系统(算法或程序等)的性能随着处理器的数目的增加而按比例提高的能力 总是将并行算法和体系结构一并考虑 算法的可扩放性: 该算法针对某一特定机器的可扩放性 体系结构的可扩放性: 该体系结构的机器的某一并行算法的可扩放性 一般情况下,增加处理器数,会增加额外开销和降低处理器利用率;所以对于一个特定的并行系统、并行算法或并行程序,它们能否有效的利用不断增加的处理器的能力应是受限的 目的: 确定某类问题用哪种并行算法与哪种并行体系结构结合。 根据在小规模机器上的运行性能,预测在大规模机器上的性能 对固定的问题规模,确定最有效的处理机数和加速比 指导改进算法、体系结构,以利用可扩充的大量处理器 22:16

可扩展性与评测标准(二) 等效率度量标准: 若问题规模w不变,随着处理器数P的增加会导致开销To随之增加,效率E下降。为了保持E不变,则在增加p的同时相应的增加问题规模W,以抵消由于p增加而导致的To的增加,从而保持效率不变 随着系统规模的增加(处理器数目的增加) ,测量增加多少运算量会保持效率不变 增加越少表明可扩放性越好 E=1/(1+To/W) To: 额外开销时间之和 22:16

可扩展性与评测标准(三) 等速度度量标准 系统规模增加时,若保持平均速度(每个处理器的速度)不变,每个处理器增加浮点操作的量 速度常以每秒多少次浮点运算(Flops)来表示 等计算时间/通信开销比率度量标准 系统规模增加时,保持计/通信比不变所需要增加的问题规模 计算时间/通信开销比率 并行计算时间与系统开销之比 22:16

谢谢大家! 22:16