CAE-CFD应用高性能集群实例分析.

Slides:



Advertisements
Similar presentations
1 上一页 下一页 金蝶 K/3 系统概述 主讲 : 李赛娟 2 上一页 下一页 金蝶 K/3 系统概述 管理软件的应用框架 K3 系统配置 硬件配置 软件配置 网络配置 基本安全策略.
Advertisements

C enter of C omputational C hemistry 并行计算机与并行计算 张鑫 理论与计算化学国际合作研究中心 分子反应动力学国家重点实验室.
第 3 章操作系统基础 3.1 操作系统概述 3.2 操作系统的功能模块 3.3 典型操作系统概述.
LOGO 流管系研討室簡報 國立勤益科技大學 電子商務應用研討室 研 討 室 ( M302 ). 研討室教育目標  運用網際網路與企業電子化等技術,將資訊科技導入應用於流通服務產業 ,拓展商務機會,並從而探討人員、科技、組織之間的教學與研究議題。 培育學生生具備:  電子商務、虛擬通路規劃與經營能力.
Welcome to the world of Computer Organization 计算机组成原理
第 2 章 中央處理單元.
Information Resource Management
多核结构与程序设计 杨全胜 东南大学成贤学院计算机系.
第一章 多核概述 使用多核了吗? 摩尔定律——芯片的晶体管数量每一年半左右增长一倍。 处理器性能不断提高主要基于两个原因:
机群性能分析软件 Paramon & Paratune
赵永华 中科院计算机网络信息中心 超级计算中心
第二章 微型计算机系统 第一节 基本术语和基本概念 第二节 计算机系统的基本构成 第三节 微机系统的硬件组成 第四节 微机系统的软件组成.
Please delete this page before you present to customer
思科Oracle RAC解决方案 Starry Wu UCS -GC.
電腦作業-CPU介紹 班級:117 座號:07號 姓名:周奕廷.
操作系统原理 Principles of Operating System
Founder Technology Group Co.,Ltd.
第11章 计算机系统 计算机系统概述 分类方法、计算机系统性能评测方法 2. 微机系统 3. 他体系结构处理机
联想RISC to IA —IT基础架构优化解决方案
Abaqus在上海超算中心的应用 朱炜垚 上海超级计算中心.
计算机与信息技术应用基础 徐东雨 计算机中心
AMD为中国教育信息化建设作贡献 AMD中国公司 齐鸣 2009年11月12日 北京.
企业级云计算 A Enterprise Cloud Serivce
“服务器服务于Internet”报告会 倪光南 1999年7月6日
第6章 数媒资产管理系统的存储技术 刘士军 1、光纤通道
天文望远镜集成建模研究 杨德华 南京天文光学技术研究所 30 NOV, 年中国虚拟天文台年会 广西师范大学 桂林
武汉测地所 现场集群环境介绍 TC3600刀片服务器产品 扩展方案讨论.
国家高技术研究发展计划 香港大学网格节点 Presented by Cho-Li Wang
内容提要: 数字图像处理的发展简史 图像处理的任务 基本的图像处理系统 图像各种形式的表示 MATLAB图像处理工具箱简介。
网 站 设 计 与 建 设 Website design and developments
資策會 南區資訊處 教育訓練中心 吳建興 個人電腦組裝 PC DIY 資策會 南區資訊處 教育訓練中心 吳建興
3D繪圖軟體 CATIA V5介紹 第十一組 劉子剛.
第 2 章 中央處理單元.
NEC Express5800 Fault Tolerant Server Introduction
TPC-C标准及实验平台.
Human Brain Vs. e-Brain Brain e-Brain Time Brain ~1950 ~1980 ~2010
计算机应用基础 第二章 操作系统基础 2018/11/16.
高效能運算服務 (High Performance Computing) 建置之經驗分享
OpenMP简介和开发教程 广州创龙电子科技有限公司
周立旸 IBM中国有限公司 网格与虚拟化解决方案
Windows 8 more simple more powerful more free.
分散式資料庫管理系統 與主從式系統 資料庫系統設計實務與管理,5e
99(1)義守大學工讀職場技能精進訓練班 資訊工程系 林義隆 老師
作 業 系 統 第三組 楊育翰 顏瑞霖.
指導老師 : 張文智 組員: B 黃美華 B 林耕宇 B 蕭凱中 B 游振偉
ICA3PP 2000 Hong Kong December
基于MPI的并行程序设计 王振海 西北工业大学理学院 西北工业大学高性能计算研究与发展中心 2018/11/28.
CDR - Continuous Data Replication
存储系统.
作業系統 家庭和小型企業網路– 第二章.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
High Performance Computing Service in NTUCC
作業系統 (Operating System)
校 園 雲端輸出管理系統 新印科技股份有限公司 聯絡人:伍宏一 電 話: /
数据挖掘工具性能比较.
主日信息: 講題:腳步 經文:箴言16:1~9 大綱: 壹、人的心 貳、人的謀算 參、交託耶和華 肆、耶和華的指引 金句:箴16:9
CPU结构和功能.
计算机系统结构 第一章 基本概念 第二章 指令系统 第三章 存储系统 第四章 输入输出系统** 第五章 标量处理机 第六章 向量处理机
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
新一代无盘技术 在图书馆电子阅览室的应用 报告人:张智翔 /4/9.
作業系統 第三章 作業系統結構.
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
微机系统的组成.
南大天文系的 计算环境 黄永锋 南京大学天文系
临界区问题的硬件指令解决方案 (Synchronization Hardware)
C++语言程序设计 C++语言程序设计 第一章 C++语言概述 第十一组 C++语言程序设计.
中国区部分高性能计算行业用户名单 中石油北京勘探开发 研究院 中海油南方基地 中石化物探研究院 中石油东方物探(BGP) 中科院数学所
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
面向应用的 数据中心发展评析 《网络世界》评测实验室.
Presentation transcript:

CAE-CFD应用高性能集群实例分析

目录 CAE HPC技术简介 CAE产品及HPC性能分析

CAE HPC技术简介 两种内存构架的硬件系统 两种并行算法 共享内存,SMP Server 分布内存,Cluster Server 共享内存并行算法-SMP(OpenMP) 分布内存并行算法-DMP(PVM, MPI)

CAE HPC技术简介 共享内存并行算法 只能在SMP Server上运行 多个CPU或计算内核共享一个内存寻址空间 优势: 劣势: <8路并行效率高 并行代码相对简单 安装调试简单 劣势: >8路内存带宽瓶颈 可扩展性较差

CAE HPC技术简介 分布内存并行算法 能在SMP Server或Cluster Server上运行 每个计算进程独享一段连续的内存空间 Cluster中的每台计算机内部可以是SMP构架 优势: 优秀的可扩展性 劣势: 并行代码相对复杂 安装运行相对复杂

CAE HPC技术简介 互联 (Interconnect) - 计算节点之间的数据交换的硬件和通讯协议 常见的互联种类 以太网 (百兆/千兆/万兆) Myrinet (Myricom, Inc.) Infiniband (Voltaire, Silverstorm, Cisco, etc.) QsNet (Quadrics Ltd.) MPI (Message Passing Interface) - 计算进程间的数据交换的软件中间件 常见的MPI软件 MPICH(2) LAM MPI HP MPI MS MPI

CAE HPC技术简介 评价互联的性能指标 带宽:单位时间能够传输的数据量,通常以每秒多少比特来表示 千兆以太网的理论带宽:1G bit/s Myrinet, Infiniband, QsNet等:10Gb~几百Gb/s 延迟:一个信息包从一个节点传输到另一个 节点所需要的时间 千兆以太网:几十到几百微秒 Myrinet, Infiniband, QsNet等高速互联:几微妙 扩展性:集群可以扩展的CPU或节点数量 低CPU占用:互联占用CPU资源的比率

CAE HPC软件

CAE HPC软件

HPC简介及性能分析 全面支持最新的32/64位双核处理器和操作系统 与众多软、硬件厂商有着广泛的合作 多种平台代码优化,提高并行效率 Windows 32&64-bit / Linux / Unix IA-32, Intel EM64T & Itanium2(IA-64), AMD64, RISC 与众多软、硬件厂商有着广泛的合作 Microsoft / HP / SGI / IBM / Sun / Intel / AMD 多种平台代码优化,提高并行效率 Windows CCS 2003, MS-MPI SGI ProPack 3/4, MPT HP, HP-MPI

HPC简介及性能分析 对FEA求解器不断进行优化和创新 19xx年xx月,第一个SMP版本(V4.3) 2000年11月,第一个DMP—DDS 2003年11月,DPCG, DJCG 2004年05月,1.11亿自由度 2004年06月,支持x64; 2004年11月,DSPARSE, DANSYS 2005年08月,高速互联(如Voltaire) 2005年11月,SC05展示支持WCCS 2006年11月,DLANPCG(v11) ……

HPC简介及性能分析 2004年5月,ANSYS在纳斯达克股市发布求解一亿自由度的有限元问题。

HPC简介及性能分析 SC05, 西雅图, ANSYS在WCCS上的演示: 操作系统: Windows Compute Cluster Server 2003 应用软件: ANSYS 11.0 开发版 硬件系统: 四台双路Intel Xeon服务器+一台双路工作站 互联: Infiniband (Voltaire ) 模型:24M自由度汽车悬挂

HPC简介及性能分析 ANSYS求解器的HPC特性: 大内存 高性能IO 高性能互联

基于Intel Woodcrest的主板 16个内存插槽!!! HPC简介及性能分析 ANSYS 对内存的需求: 每百万自由度需要的内存 DPCG, 大约1.5-2.0 GB/MDOF DPCG (MSAVE,ON), 大约0.5~0.7G/MDOF DSPARSE (out-core), 1~1.5 GB/MDOF DSPARSE (In-core), 10~15GB/MDOF 虚拟内存(或swap)严重影响速度 内存的存取速度是硬盘的几十~几百倍! 计算主进程比从进程需要更大内存 主进程担负更多 (数据管理、域划分等) 32-bit 还是 64-bit 232 = 4,294,967,296 (4 GB) 264 = 18,446,744,073,709,551,616 基于Intel Woodcrest的主板 16个内存插槽!!!

HPC简介及性能分析

HPC简介及性能分析 ANSYS 11.0 Preview5 曙光A950, 8路16核, 32G内存, 3x73GB Ultra 320 SCSI Raid0 Windows Enterprise Server 2003 x64 + Compute Cluster Pack 45M DOF, 线性静力分析, DPCG求解器(MSAVE,ON), MS-MPI, 4CPU并行

HPC简介及性能分析 峰值内存占用达30G! 结果文件达13G! Solver Time 6.6小时 Wall Time 12.3小时

HPC简介及性能分析 ANSYS对I/O的需求: 每百万自由度需要的存储空间 主进程需要持续的高性能I/O I/O DPCG, 大约 0.5 GB/MDOF DSPARSE (out-core), 大约10 GB/MDOF 主进程需要持续的高性能I/O 减少I/O对CPU的占用 避免共享文件夹/NFS 并行I/O系统(Raid 0) I/O

HPC简介及性能分析 ANSYS 支持所有主流的高速互联: Ethernet (Gigabyte, 10G) Myrinet Infiniband (Voltaire) Quadric 即使的CPU数量较少, Infiniband比千兆以太 网仍有明显优势。

HPC简介及性能分析 ANSYS对CPU的要求: 64位(32位?) 高浮点运算能力 支持双核或多核 高浮点运算能力(赛扬?)

CAE HPC软件

HPC简介及性能分析 精确、可靠、高效、成熟的一流商用CFD软件 (Fully Implicit, coupled multigrid solver) 全面支持最新的HPC技术 大规模集群计算 双核、多核、64-bit 高速互联(Myri, IB, etc.) 不断提高代码并行效率 Microsoft, WCCS 2003 HP, HP-MPI SGI, ProPack MPT

HPC简介及性能分析 高并行度:384+CPU并行,64CPU以下接近线性 高灵活性:允许Windows/Linxu/Unix混合并行! 高易用性:设置极为简单,自动/定制并行域划分 高适用性:支持所有物理模型(多参考系/多相流/燃烧/等)

HPC简介及性能分析 多种域划分方式

HPC简介及性能分析 CPU的增多并不显著增加总内存的需求 4.2M单元,总内存随CPU增加基本保持恒定(15%) 主进程不需要比从进程更多内存 小内存的集群可求解大问题!

HPC简介及性能分析 “杀富济贫”功能

HPC简介及性能分析 并行有串行求解同样“美丽”的“减肥”(收敛)曲线 16 Partitions 16-CPU 单CPU

HPC简介及性能分析 CFX求解器的HPC特性: 足够的内存即可(建议最多4G/核) Hexa 大约0.9~1G / 1M单元 Tetra 大约0.65~0.7G / 1M单元 I/O要求不高(相对ANSYS) 大约0.5G / 1M单元 需要多CPU多核 集群

HPC简介及性能分析 Test case: bigpipe

HPC简介及性能分析 CFX在512-CPU的CRAY-T3E超级计算机上的并行测试。 300万节点问题。

安世亚太CAE HPC软件

HPC简介及性能分析 专门解决冲击、爆轰等问题的非线性动力学显式分析软件 丰富的求解器 Lagrange, Euler, ALE, SPH, etc. 支持的计算平台及并行中间件 Microsoft Windows, WMPI Linux x64 & IA-64(Itanium2), PVM, HP-MPI(soon) HP-UX, PVM, HP-MPI(soon) Processor 1 Processor 4 Processor 3 Processor 2

HPC简介及性能分析 高性能并行求解器

HPC简介及性能分析 飞机撞击世贸大厦的模拟 强大的并行 计算能力 重启动功能 展示了AUTODYN重启动和并行运算的能力。首先计算了静力(预应力),然后模拟飞机冲撞过程。计算不仅包括局部破坏,还包含对整楼的影响。随后用户大户燃烧了很少时间(105分钟,这对显式求解器时间太长了),ATUODYN做了一次重启动,计算了燃油泼溅的区域的燃烧引起的局部强度和刚度的降低。最后重新启动模拟了由于大厦结构强度和刚度的降低,重力自身重力导致的整楼的倒塌。 This example demonstrates the very comprehensive restart and parallel processing capabilities of AUTODYN. After computing the static equilibrium of the building under gravity, the airplane is added to the “pre-stressed” building model allowing the subsequent impact simulation, wherein damage is evaluated both locally as well as throughout the building. Since the resulting fire lasted too long for an explicit solver (i.e., 105 minutes in the North Tower), the subsequent restart provides a reduction of the strength and stiffness of the local area over which the jet fuel was predicted to spread out. Once the local strength has been reduced, the final restart is made for the progressive collapse of the weakened building driven by gravity. Parallel processing is used to significantly reduce the elapsed time of the collapse simulation. The impact damage and collapse predicted by AUTODYN is compared with the observed data. The present simulation methodology can aid engineers in investigating the vulnerabilities of building design and, importantly, allow for the design and retrofit of buildings in order to lessen the probability of future catastrophic progressive collapse in a computational efficient and timely manner.

HPC简介及性能分析 4-CPU AUTODYN并行计算性能测试 1,728,000单元、1,771,561节点 AUTODYN 6.0, PVM

安世亚太CAE HPC软件

HPC简介及性能分析 LS-DYNA - 通用瞬态动力学有限元软件 最广泛的HPC技术的支持 硬件商最喜欢的M-CAE软件 第一个正式发布支持WCCS2003的商业CAE软件 x64平台支持多种MPI: MPICH, LAM, HP-MPI, Intel MPI, Scali 支持多种高速互联构架 Infiniand (Voltaire, etc.) Myrinet (SSC) SGI NumaLink (MPT) InfiniPath Cray RapidArray 硬件商最喜欢的M-CAE软件

HPC简介及性能分析 LS-DYNA MPP 970 7600.398支持的硬件/OS/互联/MPI Vendor O/S HPC Intereconnect MPI Software AMD Opteron Linux / WCCS2003 IB Myri, Quardrics, InfiniPath, RA LAM, MPICH, HP, SCALI, MS, Cray Apple Mac OSX 10.4 LAM/MPICH FUJITSU Prime Power SUN OS 5.8 FJSVmpi2 HP PA8000 HPUX HP-MPI HP IA64 HP Alpha True 64 Compaq MPI IBM Power 4/5 AIX 5.x, Linux POE,LAM/MPI INTEL IA32 Linux, Windows IB, Myri LAM/MPI, MPICH, HP MPI, SCALI INTEL IA64 Linux IB, Myri, Quodric LAM/MPI, MPICH, HP MPI INTEL Xeon EMT64 IB, Myri, Quodric InfiniPath LAM, MPICH, HP, INTEL, SCALI, MS NEC SX6 Super-UX MPI/SX SGI Mips IRIX 6.5 X NUMAlink MPT SGI IA64 Linux with ProPack NUMAlink, IB MPT, Intel MPI, MPCIH SUN Sparc 5.8 and above Sun HPC

HPC简介及性能分析 www.topcrunch.org 3车碰撞算例 共794,789单元 150毫秒

HPC简介及性能分析

HPC简介及性能分析

HPC简介及性能分析 WCCS2003 / Linux上性能对比测试—上海超级计算中心 测试算例:汽车侧撞 测试机器:曙光4000A 总单元数: 745,892 总节点数: 678,733 碰撞时间: 90微秒 测试机器:曙光4000A 方案一 方案二 版本 mpp970_s_6763.367_winx64 msmpirc1 mpp970_s_6763.169_linux_ADM64/MPICH1.2.6_GM 操作系统 Windows server 2003 x64 + CCP Turbo Linux 8.0 With LSF HPC 6.0 节点/互联 Myrinet 2000

HPC简介及性能分析 测试结果对比

HPC简介及性能分析 LS-DYNA MPP 的HPC特性 足够的内存(建议每核2~4G) 大容量存储 高CPU浮点计算 高性能互联

CAE HPC软件

HPC简介及性能分析 唯一采用MOM/MLFMM/PO/UTD/FEM,精确方法和高频近似方法混合的专业电磁仿真软件 基于MPI的DMP算法 并行效率~0.8(32个CPU达26倍) 支持各类硬件平台和OS Windows 32 / x64 / IA64 Linux 32 / x64 /IA64) Unix

HPC简介及性能分析 使用多种工具调优,提高并行度 DMP开发历史 GNU gprof, Intel VTune, IBM/Rational PurifyPlus, AMD CodeAnalyst, … DMP开发历史 1994年开始使用RPC (Remote Procedure Call) PVM 1995年开始转向MPI(MPICH, Scali, Intel MPI etc.)

HPC简介及性能分析 FEKO 目前可用的MPI软件: MPICH and MPICH-2 (for Windows & Linux) ScaMPI from Scali (first MPI supporting the SCI interface) HP-MPI NEC MPI SGI MPT (e.g. for Altix with NumaFlex technology) CRAY MPT SCore GM Parastation MPI Intel MPI

HPC简介及性能分析 卡塞格伦天线辐射特性分析(176,606未知量)

HPC简介及性能分析 FEKO线性求解器(LU分解,15,324未知量): (16台双路单核Intel XEON 2.4 GHz)

HPC简介及性能分析 FEKO电近场/磁近场/远场计算

HPC简介及性能分析 FEKO并行快速多级子算法进行整船电磁分析 测试算例: 整船模型一: 3 M未知量 整船模型二: 5.7M未知量 (SGI Altix IA-64)

HPC简介及性能分析 FEKO并行快速多级子算法每个进程需要的内存 (3 M未知量整船模型) 未来发展方向: 提高加速比 减少内存用量

HPC简介及性能分析 FEKO对HPC系统的要求 海量内存 高性能I/O(out-of-core) 高速互联 高浮点CPU

CAE HPC软件

HPC简介及性能分析 NASA Ames研究中心开发的 高可信度的无粘流体分析工具 并行代码基于OpenMP & MPI 可使用Native MPI或MPICH 令人难以致信的并行度

HPC简介及性能分析 Cart3D 在SGI Origin 3800上的并行测试