中国高性能计算机的发展趋势分析与展望 从中国TOP100排行榜谈起

Slides:



Advertisements
Similar presentations
C enter of C omputational C hemistry 并行计算机与并行计算 张鑫 理论与计算化学国际合作研究中心 分子反应动力学国家重点实验室.
Advertisements

大学计算机基础 Basics of Computer Science Fall, Year 2014
北京工业云的实践与思考 曾宇 2010年10月.
對於學習不力學生的學習輔導經驗分享 張其清 新北市立新北高工 主任輔導教師.
Welcome to the world of Computer Organization 计算机组成原理
《3-6岁儿童学习与发展指南》概述.
國立中興大學 法律學系     系所介紹          .
温故知新 问题一:我国科技发展经过怎样的历程? 中华民族在历史上曾创造了辉煌灿烂的文化,世界领先;
第 2 章 中央處理單元.
第一章 多核概述 使用多核了吗? 摩尔定律——芯片的晶体管数量每一年半左右增长一倍。 处理器性能不断提高主要基于两个原因:
会场事项 会议日程 无线网络 iocasmeeting 8:30-9:45 MPI并行编程基础 周纯葆 11:30-13:00 午餐时间
机群性能分析软件 Paramon & Paratune
赵永华 中科院计算机网络信息中心 超级计算中心
Unit 9 Have you ever been to an amusement park? Section A.
2007年8月龙星课程 周源源老师课程体会 包云岗 中科院计算所
精品开放课程的 建设与应用 谢幼如 教授 广东省高校教育技术中心 华南师范大学教育信息技术学院
Π π π 大學生你 了沒 別讓落伍找上你 嘉藥學程 幫你打造第二專長 讓你揚眉吐氣~ 嘉南藥理科技大學 教務處 課務組 製.
十二年國民基本教育 高雄區入學方式說明 報告人:中山工商 楊薇主任.
2 美國與全球經濟概況 CHAPTER. 2 美國與全球經濟概況 CHAPTER C H A P T E R C H E C K L I S T 學習本章後,您將能: 描述美國與全球在生產什麼、如何生產,以及為誰生產貨 品與服務 1 透過循環流量模型,瞭解家計單位、廠商與政府之間的 互動 2.
第3讲 教学内容 1.3~ 微型计算机系统——硬件部分 计算机的产生发展 计算机系统组成(硬件结构) 计算机工作原理
China National Conference Center, Beijing
Chapter 17 數位革命與全球電子市場 Global Marketing Warren J. Keegan Mark C. Green.
思维,决定一切 -公司战略、企业文化与人力资源的思辨
國立清華大學 國科會計畫經費管理 報告人:周 杏 貞 中華民國101年5月.
Topic 1 Are you going to play basketball? 一、 细节语法: 1. win----- winner ( 胜利者) / 复习职业 2. prefer = like ……better favorite = like ……best 3. join ( 组织,人群) =
臺灣的挑戰與機會 鄧振中 經濟部長 104年8月26日 1.
Please delete this page before you present to customer
思科Oracle RAC解决方案 Starry Wu UCS -GC.
He said: What is a team? Team is not to let the other person failed, and do not let any team member fail!
中小型企业IT外包业务开拓之体验 赵士昌 博士 Shichang Zhao Ph.D XBOP LLC 总经理
加快数据中心运转速度 — 加速业务发展 约翰•福勒 甲骨文公司系统事业部执行副总裁. 加快数据中心运转速度 — 加速业务发展 约翰•福勒 甲骨文公司系统事业部执行副总裁.
辦理實習工場安全衛生業務經驗分享 新竹高工實習輔導主任  黃俊燁.
第11章 计算机系统 计算机系统概述 分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
Abaqus在上海超算中心的应用 朱炜垚 上海超级计算中心.
蔡一郎 國家高速網路與計算中心 National Center for High-performance Computing
AMD为中国教育信息化建设作贡献 AMD中国公司 齐鸣 2009年11月12日 北京.
報告人:王月杏 行動電話 台南市 九十九年度電腦維運相關事宜 報告人:王月杏 行動電話
99年台南市中小學電腦維運 --招標結果暨配發說明
Computer <目录> 处理器 CPU 显卡 GPU 内存 MEROMRY 硬盘 HARD DISK DRIVER
2006年10月 面向数据处理的高端系统 胡雷钧 浪潮公司.
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
Review Question 安裝 or 管理過 Windows Server? 安裝 or 管理過 Unix-like Server?
CPU資料處理 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
高效能運算服務 (High Performance Computing) 建置之經驗分享
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都
泛腾众核平台方案
淘宝核心系统数据库组 余锋 利用新硬件提升数据库性能 淘宝核心系统数据库组 余锋
Notes appear on slides 4, 5, 6, and 62
GPU分散式演算法設計與單機系統模擬(第二季)
第 17 章 數位革命與 全球電子市場 © 2005 Prentice Hall.
CALIS重点学科网络资源 选 择 清华大学图书馆 林 佳 12/3/2018.
Mobile Communications Networking Lab. 行動通訊網路實驗室
胡維平 國立中正大學化學暨生物化學系 Aug. 30, 2017
High Performance Computing Service in NTUCC
Angel Falls 原作者:ca 修編配樂:老編西歪 8秒自動換頁 背景音樂:鋼琴演奏.
世界四大瀑布 演唱: 黄鸟 四兄弟 尼亚加拉瀑布 维多利亚瀑布 安琪儿瀑布 伊夸朱瀑布
计算机科学导论 胡威 计算机科学与技术学院 2019年2月5日.
中国科技大学计算机科学与技术学院 School of Computer Science & Technology
如何增加对欧贸易出口 中国制造展销中心(英国)有限公司 首席执行官 理查德·赛斯
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
胡維平 國立中正大學化學暨生物化學系 Aug. 22, 2018
中美图书馆之间合作的过去、现在和未来 Sino-U. S
怎样才能学好大学物理 ?.
BiCuts: A fast packet classification algorithm using bit-level cutting
百万亿次超级计算机诞生记 姓名 Xiangyu Ye 职务 微软中国技术中心资深HPC顾问 公司 微软中国
高中书面表达训练.
My Country 我 的 国 家.
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
中国区部分高性能计算行业用户名单 中石油北京勘探开发 研究院 中海油南方基地 中石化物探研究院 中石油东方物探(BGP) 中科院数学所
Presentation transcript:

中国高性能计算机的发展趋势分析与展望 从中国TOP100排行榜谈起 State-of-the-Art Analysis and Perspectives of China HPC Development: A View from 2011 HPC TOP100 张云泉(Yunquan Zhang) 中科院软件所并行软件与计算科学实验室 计算机科学国家重点实验室 合作者:孙家昶 袁国兴 张林波 zyq@mail.rdcps.ac.cn 北京 2012年6月20日

中国HPC TOP100排行榜 2002年国内首次推出的高性能计算机排行榜,经过10 年的运作,已成为大陆高性能计算机排行方面事实上的 工业标准,得到广大研究人员,用户、厂商和政府部门 的认可。成为很多用户购买高性能计算机的重要参考和 评标依据,并被学术报告和项目申请引用。 2004年获得国家863“高性能计算机及其核心软件重大 专项”专家组的认可,获得其子项目《高性能计算机性 能测试技术及方法研究》的资助,被纳入该项目所成立 的“高性能计算机评测中心”的研究工作。2007年继 续获得滚动资助。 以该排行榜内容为依据编写的分析报告,2005、2006、 2007三年入选中国计算机学会学术工委编写的年度 《中国计算机科学技术发展报告》。 以此为契机于2004年创办的“全国高性能算法软件研 究开发研讨会”已成功举办7届,成为系列会议。2007 年到会人数超过130人。成为HPC产业界的年度盛会。 2004年,美国SCIDAC计划TOPS PI David Keyes以 TOP100排行榜为基础,对中国的HPC发展情况进行分 析和研究,并做了《Supercomputing in China》报告。 排行榜英文版内容每年都和TOP500负责人Hans Meuer和Jack Dongarra教授等进行交流. 日前TOP500网站与国内TOP100网站互相交换了链接, TOP500以新闻的形式报道了中国TOP100. 协会2007和2010年收到美国国家自然基金委资助的 Supercomputing Workshop的特邀报告邀请,专门向 美国科学家介绍中国大陆TOP100的发展和趋势。

2011年中国高性能计算机性能TOP100排行榜 张云泉 孙家昶 袁国兴 张林波 中国软件行业协会数学软件分会 国家863高性能计算机评测中心 中国计算机学会高性能计算专业委员会 (http://www.samss.org.cn) 本排行榜为中国软件行业协会数学软件分会、国家863高性能计算机 评测中心和中国计算机学会高性能计算专业委员会联合公开发布的 2011年中国高性能计算机性能TOP100排行榜,版权属于中国软件行 业协会数学软件分会(http://www.samss.org.cn),欢迎各方提供准确 信息。引用者需要注明出处;用于商业目的者,须经中国软件行业协 会数学软件分会许可。 联系人:张云泉 博士。(zyq@mail.rdcps.ac.cn 或者 samss@mail.rdcps.ac.cn)。 本排行榜得到国家863“高效能计算机及网格服务环境”重大专项课题, 《高效能计算机系统测评技术研究》( No.2006AA01A105)的资助。

2011年中国高性能计算机性能TOP100排行榜 注解1: 本排行榜的Linpack数据只包括中国大陆地区,有如下几个来源: 来源标为“Q”的Linpack数据是经过本协会测试、抽查的数据或部级鉴定会认可的数据; 来源标为“T”的Linpack数据是从国际TOP500(http://www.top500.org)公布的数据引用来的; 来源标为“C”的Linpack数据是机器制造商提供的数据; 来源标为“U”的Linpack数据是根据商业公司的公开数据、用户填写的调查表的数据给出; 由用户/厂商填写的数据,本协会只负责对其合理性进行检查,其真实性由填写调查表的用户/厂商负责; 根据人力和物力的情况,本协会将适当加大由协会参与测试的数据的比例; 来源标为“S”的Linpack数据是从国际TOP500(http://www.top500.org)公布的同型号高性能计算机系统较大规模机器的Linpack值等比推算出来的。

注解2: 2011年中国高性能计算机性能TOP100排行榜 各系统的峰值数据主要根据用户/厂商填写的调查表中数据给出。本协会只负责对其合理性进行检查,其真实性由填写调查表的用户/厂商负责; 本排行榜将至少在每年10月底或11月上旬公布一次; 调查和整理过程中,难免出现疏漏和错误,欢迎对调查表中的问题提出您的意见,请将反馈意见发到:samss@mail.rdcps.ac.cn;联系人:张云泉 博士(zyq@mail.rdcps.ac.cn)。

2011 China HPC TOP10 排名 厂商 型号 安装地点 年份 应用领域 处理器核 Linpack (Gflops) 来源 Peak (Gflops) 效率 1 国防科大 天河一号A/7168x2 Intel Hexa Core Xeon X5670 2.93GHz + 7168 Nvidia Tesla M2050@1.15GHz+2048 Hex Core FT-1000@1GHz/私有高速网络80Gbps 国家超级计算天津中心 2010 超算中心 202752 2566000.00 Q 4701000.00 0.546 2 国家并行计算机工程技术研究中心 神威蓝光/8575x16 Core 申威1600@975MHz/QDR Infiniband 国家超级计算济南中心 2011 科学计算/工业 137200 795900.00 1070160.00 0.744 3 天河一号A-HN/2048x2 Intel Hexa Core Xeon X5670 2.93GHz + 2048 Nvidia Tesla M2050@1.15GHz/私有高速网络80Gbps 国家超级计算长沙中心 科学计算/教育 53248 771700.00 1343200.00 0.575 4 曙光 曙光星云/Dawning TC3600 Blade/2560x (2 Intel Hexa Core X5650 + Nvidia Tesla C2050 GPU)/QDR Infiniband 国家超级计算深圳中心 52416 749200.00 C 1296320.26 0.578 5 IBM xSeries x3650M3/Intel Xeon X56xx 2.53 GHz/Giga-E 网络公司 互联网服务 113040 636985.00 T12 1143965.00 0.557 6 中科院过程所 Mole-8.5 Cluster/320x2 Intel QC Xeon E5520 2.26 Ghz + 320x6 Nvidia Tesla C2050/QDR Infiniband 中国科学院过程工程研究所 科学计算/粒子模拟 33120 496500.00 U 1138440.00 0.436 7 曙光星云/Dawning TC3600 Blade/3040 x 2 Intel Hexa Core X5650/QDR Infiniband 深圳云计算中心 云计算 36480 342300.00 389168.64 0.880 8 xSeries x3650M3/Intel Xeon X56xx 2.93 GHz/Giga-E 电信公司 工业 36336 204754.40 T4 425856.00 0.481 9 xSeries x3650M2 Cluster/Intel Xeon QC E55xx 2.53 GHz/Giga-E 34688 196228.00 351044.00 0.559 10 魔方/曙光5000A/1920x4 AMD QC Barcelona 1.9GHz/DDR Infiniband/WCCS+Linux 上海超级计算中心 2008 30720 180600.00 233472.00 0.774

2011 CHINA HPC TOP100 NO.11-NO.20 排名 厂商 型号 安装地点 年份 应用领域 处理器核 Linpack (Gflops) 来源 Peak (Gflops) 效率 11 IBM xSeries x3650M3/Intel Xeon X56xx 2.53 GHz/Giga-E 网络公司 2011 互联网服务 29800 168375.00 T3 302385.00 0.557 12 xSeries x3630M3/Intel Xeon X5620 2.4GHz/Giga-E 41436 159114.24 C 397785.60 0.400 13 xSeries x3650M3/Intel Xeon X56xx 2.93 GHz/Giga-E 工程公司 工业 27576 155391.60 323190.00 0.481 14 国家并行计算机工程技术研究中心 神威4000H/1190x2 Six Core Intel Xeon X5675/QDR Infiniband 北京 科学计算 14280 145600.00 167362.00 0.870 15 BladeCenter HS22 Cluster/Intel Xeon QC E5xxx 2.53GHz/Giga-E 24864 140655.60 251623.80 0.559 16 BladeCenter HS22 Cluster/Intel Xeon QC GT 2.53 GHz/Giga-E 2009 工业/游戏 21504 124120.00 T4 217640.00 0.570 17 xSeries x3650M2 Cluster/Intel Xeon QC E55xx 2.53 Ghz/Giga-E 2010 21888 123820.40 217620.60 0.569 18 123818.10 217620.00 19 服务提供商 21456 121376.40 217134.60 20 联想 深腾7000/1240x2 Intel Xeon QC E5450 3.0GHz/140x4 Intel Xeon QC X7350 2.93GHz Infiniband 4xDDR 中国科学院超级计算中心 2008 超算中心 12160 102800.00 145293.00 0.708

2011 CHINA HPC TOP100 NO.21-NO.30 排名 厂商 型号 安装地点 年份 应用领域 处理器核 Linpack (Gflops) 来源 Peak (Gflops) 效率 21 IBM BladeCenter HS22 Cluster/Intel Xeon QC GT 2.66GHz/Giga-E 工程公司 2011 工业 18048 102097.40 T2 192463.80 0.530 22 曙光 曙光5000/2640*Intel Xeon 5650 6核 2.66GHz/Giga-E 政府部门(北京) 政府部门 15840 95140.00 C2 168981.12 0.563 23 xSeries x3550M3/Intel Xeon X56xx 2.53GHz/Giga-E 服务提供商 16416 92504.00 166130.00 0.557 24 浪潮 天梭-10000/768x2 Six Core Intel Xeon X5670 2.93GHz/QDR Infiniband 清华大学 大气气象 9216 92420.00 C 107300.00 0.861 25 国家并行计算机工程技术研究中心 神威4000A/700x2 Six Core Intel Xeon X5675/QDR Infiniband 国家超算济南中心 超算中心 8400 90850.00 102816.00 0.884 26 曙光5000/4096*Xeon 5620 4核 2.4GHz/Giga-E 网络公司(北京) 互联网应用 16384 89300.00 157286.00 0.568 27 BladeCenter HS22 Cluster/Intel Xeon QC GT 2.53 GHz/Giga-E 电信公司 2010 15504 87706.00 156900.40 0.559 28 曙光5000/4096*AMD Opteron 2379 4核 2.4GHz/Giga-E 政府部门(上海) 87380.00 157286.40 0.556 29 曙光5000/2000*AMD Opteron 6136 8核 2.4GHz/Giga-E 16000 87100.00 153600.00 0.567 30 曙光5000/4400*Xeon 5520 4核 2.26GHz/Giga-E 网络公司 17600 86620.00 159104.00 0.544

2011 CHINA HPC TOP100 NO.31-NO.40 排名 厂商 型号 安装地点 年份 应用领域 处理器核 Linpack (Gflops) 来源 Peak (Gflops) 效率 31 曙光 曙光5000/4400*Xeon 5606 4核 2.13GHz/Giga-E 网络公司 2011 互联网应用 17600 84980.00 C2 149952.00 0.567 32 IBM BladeCenter HS22 Cluster/Intel Xeon QC GT 2.66GHz/Giga-E 工程公司 工业 14208 80374.60 T2 151514.20 0.530 33 曙光星云/Dawning TC3600 Blade/220x(2 Intel Hexa Core X5650 + 1 NVidia Tesla C2050)/QDR Infiniband 成都超级计算中心(二期) 2010 超算中心 5720 76350.38 C 141389.60  0.540 34 xSeries x3650M2 Cluster/Intel Xeon QC E55xx 2.53 Ghz/Giga-E 服务提供商 工业/游戏 12800 73880.00 129540.00 0.570 35 BladeCenter HS22 Cluster/Intel Xeon QC E5XXX 2.53 GHz/Giga-E 互联网服务 12324 69720.00 T 124720.00 0.559 36 xSeries x3650M3/Intel Xeon X56xx 2.53 GHz/Giga-E 11604 65390.00 117430.00 0.557 37 曙光5000/TC3600 Blade/1024*Intel Xeon 6Core X5650 2.66GHz/QDR Infinand 复旦大学 科学计算/教育 6144 57840.00 65544.19 0.882 38 HP Cluster Platform 4000 BL685c G7/AMD Opteron 12 Core 2.1GHz/Giga-E 11292 56410.00 108400.00 0.520 39 生物专用机/Dawning TC3600 Blade/Intel Hexa Core X5650 + NVidia Tesla C2050 GPU/QDR Infiniband 中国科学院计算技术研究所 生物信息学 4160 55527.25 102828.80 40 曙光星云/TC3600 Blade/320*Intel Xeon X5650 +160* Nvidia Tesla C2050 GPU/QDR Infiniband 无锡城市云计算中心 云计算

2011 CHINA HPC TOP100 NO.41-NO.50 排名 厂商 型号 安装地点 年份 应用领域 处理器核 Linpack (Gflops) 来源 Peak (Gflops) 效率 41 曙光 曙光5000/TC3600 Blade/960*AMD Opteron 6132 8核 2.2GHz/Infiniband 中国电力科学研究院新能源研究所 2011 科学计算/电力 7680 53090.00 C 67584.00 0.786 42 曙光5000/1250*AMD Opteron 6136 8核 2.4GHz/Giga-E 政府部门(北京) 政府部门 10000 52030.00 96000.00 0.542 43 HP Cluster Platform 3000 BL460c G7/Intel Xeon E5620 2.4GHz/Giga-E 网络公司 互联网服务 11292 51420.00 T 98990.00 0.519 44 浪潮 TS10000/850x2 Intel Xeon Hexa Core X5650/Giga-E 政府部门(广州) 10200 51340.00 108528.00 0.473 45 IBM xSeries x3650M2 Cluster/Intel Xeon QC E55xx 2.53 Ghz/Giga-E 工程公司 2010 工业 8960 51203.30 90675.20 0.565 46 曙光5000/1200*Xeon 5675 6核 3.06GHz/Giga-E 7200 49510.00 88329.60 0.561 47 Cluster Platform 3000 BL460c G6/Intel Xeon E5530 2.4GHz/Giga-E 电信公司 9520 47890.00 91390.00 0.524 48 Cluster Platform 3000 BL460c G7/Intel Xeon X5650 2.66GHz/Giga-E 8556 47870.00 91040.00 0.526 49 Cluster Platform 4000 BL685c G7/AMD Opteron 12 Core 2.1GHz/Giga-E 10800 47300.00 90720.00 0.521 50 曙光星云/TC3600 Blade/260*Intel Xeon X5650 + 130*Nvidia Tesla C2050 GPU/QDR Infiniband 曙光高性能实验室 科学计算 3380 46960.00 83592.08 0.562

中国TOP100性能分析(1) 中国TOP100总Linpack性能12 Pflops (2010 年6.3PFlops),1.90倍(2010年2.86倍); 2011年6月,TOP500排行榜第一名被日本的 K-Computer夺得! 2011年11月,K Computer的Linpack突破 10.51Petaflops!效率93%,峰值 11.28Petaflops。总测试时间29h28m,继续保 持世界第一! 天河1A降为世界第二;中国的机器份额保持第 二名,仅次于美国! 2012年美国的Titan(Jaguar+Kepler GPU), Sequoia(BlueGene/Q), Mira(BlueGene/Q),Stampede(Dell+MICA))也 许能够帮助美国重夺世界第一的位置。

中国TOP100性能分析(2) 国家超级计算天津中心以国防科大天河1A再次 蝉联中国TOP100第一名,Linpack性能 2.57PFlops,峰值4.7PFlops。 国家超级计算济南中心以国家并行计算机工程 技术研究中心全国产神威蓝光力夺中国 TOP100第二名,Linpack性能795.9TFlops, 峰值1.07PFlops。 国家超级计算长沙中心以国防科大天河1A-HN 力夺中国TOP100第三名,Linpack性能 771.7TFlops,峰值1.34PFlops。 神威蓝光是我国历史上首台全国产CPU的千万 亿次超级计算机!

全部机器的Linpack性能超过22.1Tflops 全部系统的峰值超过25.6TFlops 中国TOP100性能分析(2) 全部机器的Linpack性能超过22.1Tflops 2010年9.6TFlops,2.3倍,比去年的1.41倍大幅提升。 全部系统的峰值超过25.6TFlops 2010年11TFlops,2.33倍,比去年的1.36倍大幅提升; 平均性能突破120万亿次,与国际水平差 距仅为半年; 排名前三的机器两套是CPU+GPU异构 MPP。 97(2010年98个)系统都是机群。 机群继续占据主导地位。 前10名里4台是CPU+GPU体系架构。 13套CPU+GPU异构机群。

一期系统TH-1于2009年9月研制成功 二期系统TH-1A于2010年8月研制成功 峰值性能 1206 万亿次, Linpack实测性能 563.1 万亿次 位列2009年11月500强排行榜的全球第五、亚洲第一 二期系统TH-1A于2010年8月研制成功 峰值性能 4700 万亿次, Linpack实测性能 2566 万亿次 2010年11月500强排行榜的世界第一

TH-1A系统概述 异构结构:CPU + GPU 峰值性能:4.7PFlop/s 持续性能:2.566PFlop/s 功耗(满载):4.04MW Items Configuration Processor 14336 Intel CPUs + 7168 nVIDIA GPUs + 2048FT CPUs Memory 262TB in total Interconnect Proprietary high-speed interconnecting network Storage 2PB Cabinet 120 Compute,14 Storage,6 Communication

天河一号主要性能指标 峰值性能:4700TFlops, 持续性能:2566TFlops(LINPACK实测值) 全系统共有:23552个微处理器,其中14336 个Intel X5670 CPU 、2048个自主FT-1000 CPU 、7168个Nvidea M2050 GPU 内存总容量262TB 存储总容量2PB 满负荷运行最大功耗为4.04MW 全系统包含140个机柜 占地总面积700平方米 总重量160吨 环境温度10℃~35℃ 湿度10%~90% 16 16

国家超级计算天津中心机房和办公大楼 中心机房和办公大楼 动力站 两层机房:共3200平米 国家超级计算天津中心座落在天津滨海新区的泰达外包服务园 中心机房和办公大楼 办公区 动力站 变电站、制冷站 共1200平米 两层机房:共3200平米

纽约时报头版头条报道天河一号

美国华尔街日报的反应 Chinese Supercomputer Likely to Prompt Unease in U.S. – Wall Street Journal "I don't know of another system that is going to be anywhere near the performance and the power of this machine" in China, said Jack Dongarra, a supercomputer expert on the Oak Ridge research staff who is a professor at the University of Tennessee and recently inspected the system in Tianjin last week. "It is quite impressive.“ “我不知道世界上任何地方还有另外一台机器能够和这台机器的性能和能力相媲美,它让人印象深刻”。--- 美国田纳西大学教授/橡树岭国家实验室科学家 Jack Dongarra。

美国华盛顿邮报的反应 Supercomputer in China super fast: U.S. computers feel inadequate --Washington Post The computer is "another sign of the country's growing technological prowess that is likely to set off alarms about U.S. competitiveness and national security," Don Clark at the Wall Street Journal writes. Although some see the release of the computer as an affront to the U.S. lead in computing, others see it as a "wake-up call," as Jack Dongarra, a supercomputer expert told the Wall Street Journal, similar to when Japan released the Earth Simulator supercomputer in 2002. It took the U.S. two years to regain the crown.

福克斯新闻 China Has World‘s Fastest Supercomputer If verified, Tianhe-1 would be significantly faster than the current title holder, the U.S. Department of Energy's Cray XT5 Jaguar in Oak Ridge, Tennessee, which topped the list issued in June at 1.75 petaflops per second. The announcement highlighted how China is leveraging rapid economic growth and sharp increases in research spending to join the United States, Europe and Japan in the global technology elite.

用户分布 依次为基础科学研究、生命科学与生物医药、新能源新材料、计算流体力学、高端装备制造设计、环境科学研究(海洋、全球变化等)、气候气象、石油勘探、动漫渲染

资源使用分布 依次为石油勘探、生命科学与生物医药、新能源新材料、环境科学研究(海洋、全球变化等)、基础科学研究、计算流体力学、气候气象、动漫渲染、高端装备制造设计

大规模计算应用:石油地震数据处理 合作:中石油东方地球物理公司(BGP) 合作:中国石化石油物探技术研究院 GeoEast-lightning单(双)程波叠前深度偏移软件 最多使用7155个结点85860个核,系统利用率99.8% 合作:中国石化石油物探技术研究院 iCluster地震叠前偏移成像系统 实现二维和三维地震数据叠前时间偏移和叠前深度偏移处理流程 测试炮域单程波动方程叠前深度偏移、kirchhoff积分法叠前时间体偏移和高斯束叠前深度偏移模块 逆时叠前深度偏移剖面 测试一:中亚某区域面积1050 平方公里(30×35公里),深度5公里,共70000炮地震数据,初始数据 700GB 最多使用7155个结点85860个核,系统利用率99.8% 波动方程逆时叠前深度偏移计算处理时间大幅缩短为16小时 测试二:东北某地区,面积680平方公里,深度9公里,共计80000炮地震数据,初始1.4TB数据 采用7000个节点,40个小时即完成波动方程叠前深度偏移计算

大规模计算应用:全球环境变化研究 合作:国家海洋局一所、大气物理所等 合作:中科院软件所 自主开发气候模式应用 最大计算规模达到20000核 超线性加速比(相对于1024核) 合作:中科院软件所 全球大气浅水波模式全隐式数值模拟 计算规模从1152扩展至82944CPU核 测试了从4608至82944CPU核,并行 效率为60%

合作:北大、中科大、浙大、南开、中科院合作组 国际热核聚变实验反应堆ITER计划GTC程序 大规模计算应用:磁约束聚变应用研究 合作:北大、中科大、浙大、南开、中科院合作组 国际热核聚变实验反应堆ITER计划GTC程序 最大计算规模达到4096节点(49152核) 性能是“美洲豹”近3倍

世界最大规模,流动参数与自然界实际湍流相当 GPU大规模计算应用(I):湍流模拟 合作:北京大学工学院、信息学院 大规模复杂湍流模拟CPU+GPU应用 采用全系统7168个CPU+GPU结点,模拟最大14336立方 数据规模 单精度性能达到29.7Tflops 计算规模 (天河节点) 湍流规模 说明 2048 40963 之前世界最大湍流规模 4096 81923 7168(含GPU) 143363 世界最大规模,流动参数与自然界实际湍流相当

GPU大规模计算应用(I):湍流模拟 湍流模拟核心算法FFT双精度性能比 较 Tianhe-1A, GPU加速, 17Tflops PKUFFT(用GPU) 湍流模拟核心算法FFT双精度性能比 较 Tianhe-1A, GPU加速, 17Tflops Tianhe-1A, 仅CPU, 8.3Tflops FFT速度记录达到美洲豹的1.6倍 证明GPU加速在超大系统上是实际可 用的 MKL(不用GPU) 美洲豹

GPU大规模计算应用(II):分子动力学模拟 在 Petaflops 机器上的 Petaflops 应用 合作:中科院过程工程研究所 硅晶体原子模拟与尺度效应分析CPU+GPU应用 0.54 nm 1.56 mm 在 Petaflops 机器上的 Petaflops 应用 国内首个千万亿次应用、全球最快MD

GPU大规模计算应用(II):分子动力学模拟 自主开发的多体键序作用势(BOP)程序 测试 全系统7168个GPU上进行1101亿个原子的晶体硅分子动力学模拟 单精度浮点计算性能达到了1.87PFlops CPU double+GPU float异构并行性能92Tflops+1.17Pflops

Cluster Sharing Trends of China HPC TOP100 (2002 -2011)

中国TOP100制造商分析(1) 厂商 系统 份额 Rmax [TF/s] Rpeak [TF/s] 平均效率 (%) 处理器核 国产 机器 曙光 35 35% 2848.18 4544.56 61.40% 363864 浪潮 7 7% 306.93 535.39 60.50% 55748 神威 5 5% 1087.80 1404.71 84.34% 165512 国防科大 2 2% 3337.70 6044.20 56.00% 256000 中科院过程所 1 1% 496.50 1138.44 43.60% 33120 联想 102.80 145.29 70.80% 12160 国产小计 51 51% 8204.11 13812.59 62.90% 886404 引进 IBM 3264.31 6020.59 57.60% 588524 HP 13 13% 509.51 927.77 98056 Dell 23.40 44.93 72.43% 6880 引进小计 49 49% 3797.22 6993.28 57.50% 690900 总计 100 100% 12001.33 20805.87 59.63% 1577304

中国TOP100厂商份额趋势 34

中国TOP100制造商分析(2) TOP10中,曙光3台(No.4,7,10), IBM 3 台(No.5,8,9), 国防 科大2台(No.1,3),神威1台(No.2),中科院过程所1台 (No.6). 美国制造的机器数量占装机数量的49%,比2010年的51%继 续小幅下降; 国产机器厂商有曙光、浪潮、神威、国防科大、中科院过程所 和联想等上榜,数量下降为6家。国产机器(曙光公司)继续 保持中国TOP100数量份额第一名! 国外机器由4家下降为3家,IBM、HP和DELL。 IBM公司首 次夺得中国TOP100数量份额的第一名! 共有9家厂商上榜,但份额集中在曙光、IBM和HP等厂商! Linpack性能来看,国产机器的性能比例为68.36%,比2010 年的81.08%大幅下滑。而国外机器从2010年的18.92 %,大 幅上升到31.64%。 国防科大连续三年保持中国TOP100冠军和总性能份额第一名!

中国TOP100制造商机器数量份额图

中国TOP100制造商机器性能份额图

中国TOP100行业领域分析(1) 100 100% 12001.33 20805.87 59.63% 1577304 应用领域 数量(套) 份额 Linpack[TF/s] 峰值 [TF/s] 平均效率 处理器数 互联网服务 21 21% 2133.82 3963.18 53.30% 404568 政府部门 16 16% 763.91 1450.00 52.00% 155648 教育 9 9% 293.01 424.04 76.30% 30740 超算中心 8 8% 5333.40 8892.26 66.84% 502616 电信 7 7% 474.31 923.01 53.20% 88192 工程 6 6% 541.98 1026.46 54.10% 95720 科学计算 5 5% 742.70 1455.37 67.70% 56300 游戏 388.62 682.08 57.00% 68648 大气气象 202.46 236.82 85.20% 22064 能源 4 4% 112.02 208.98 59.30% 13852 云计算 3 3% 436.35 571.11 63.60% 44300 服务提供商 2 2% 213.88 383.26 55.80% 37872 电力 81.87 118.27 13440 半导体 79.20 150.37 53.50% 15352 生物信息 78.93 147.76 53.00% 8480 视频计算 1 1% 46.38 81.79 56.70% 9600 后勤服务 31.03 58.40 53.10% 5840 地震 23.27 32.69 71.20% 3072 总计 100 100% 12001.33 20805.87 59.63% 1577304

中国TOP100行业领域分析(2) 主要分布在互联网服务、政府部门、教育、超算中心、 电信、工程、科学计算、游戏、大气气象、能源 、云 计算、服务提供商、电力、半导体、生物信息、视频 计算、后勤服务、地震等十八个领域。领域数量有所 增加。 从机器数量上,互联网服务(21%,第一)、政府部 门(16%,第二)、教育(9%,第三)、超算中心 (8%,第四)、电信(7%,第五) 。 从机器Linpack性能上看,超算中心(44.64%,第 一),互联网服务(17.78%,第二)、政府部门 (6.37%,第三),科学计算(6.19%,份额继续下降 第四),工程(4.52%,第五)。 综合来看,互联网服务、超算中心、政府部门、教育、 科学计算、工程、电信等是高性能计算主要用户。 云计算、半导体等作为新应用领域在中国TOP100上 首次出现。

中国TOP100应用领域趋势 40

中国TOP100行业应用领域机器系统份额图

中国TOP100行业应用领域机器性能份额图

中国TOP100多核处理器系统份额图

中国TOP100处理器制造商系统份额图

中国TOP100互联网络系统份额图

中国TOP100性能发展趋势

趋势和展望(1) 综合从1993年开始的中国国产公开高性能计算 机当年性能最高机器峰值性能,我们得到了图 中的中国高性能计算机性能发展趋势图 (1993-2011)。 中国高性能计算机从1993年到1996年发展平稳(3年),没有量级变化; 从1996年开始(曙光1000)到1999年(神威I)实现了第一次跨越式发展(3年); 从1999年到2001年又进入平稳发展期(2年); 从2001年开始(曙光3000)到2005年,进入另外一次快速发展时期,(曙光4000A,深腾6800,国家气象局21万亿次机器)(4年); 从2004年2007年,重新进入平稳发展期(3年) 2008年到2010年,一个活跃发展周期。(3年) 2011年开始进入一个平稳发展期,大约持续2到3年。 47

趋势和展望(2) 从TOP100性能趋势预测可以看出: 峰值100TFflops的机器将在2007年到2008年间出现(2008年10月); 累计Linpack性能将在2008年到2009年间超过Petaflops(2008年10月); 峰值Petaflops的机器将在2010年到2011年间出现(提前完成!); 峰值10Petaflops的机器将在2012年到2013年间出现; 累计Linpack性能将在2011年到2012年间达到10Petaflops(2011年10月); 峰值100Petaflops的机器将在2014年到2015年间出现; 累计Linpack性能将在2013年到2014年间达到100Petaflops。 48

小结 历史上首次出现峰值超过1PFlops全部采用国产16核 处理器验发的神威蓝光超级计算机; 国产机器(曙光公司)和国外机器(IBM公司)历史上 首次并列中国TOP100数量份额第一名; 国防科大连续三年蝉联TOP100第一名和总性能份额 第一名; TOP100总体性能突破10千万亿次(PFlops),达 到12PFlops,中国高性能计算机市场继续稳步增长; TOP100平均性能突破120万亿次,与国际水平差距 仅为半年; 入门系统性能门槛继续大幅提升,达到22TFlops, 是2010年的2.3倍;

小结 97套系统采用机群结构,计算机体系结构创新形势 依然严峻; 国产16核申威1600处理器首次占据1%的处理器份额 ,打破国外处理器垄断TOP100排行榜的坚冰; NUDT国产私有高性能网络占据2%的高速互联网络 份额,继续扩大国产高性能互联网络的份额; 上榜高性能计算机制造商下降到9家,市场份额进一 步集中; 应用领域增加到18个,高性能计算应用呈现百花齐放 局面。互联网服务、超算中心、政府部门、教育、科 学计算、工程、电信等是高性能计算主要用户。

谢谢. THANKS Q&A 请多提宝贵意见. 欢迎加入SAMSS和CCF 高专委 谢谢! THANKS Q&A 请多提宝贵意见! 欢迎加入SAMSS和CCF 高专委! 欢迎出席 HPC CHINA 2012 湖南 张家界 2012年10月27日到31日 HTTP://WWW.SAMSS.ORG.CN