Presentation is loading. Please wait.

Presentation is loading. Please wait.

CAE-CFD应用高性能集群实例分析.

Similar presentations


Presentation on theme: "CAE-CFD应用高性能集群实例分析."— Presentation transcript:

1 CAE-CFD应用高性能集群实例分析

2 目录 CAE HPC技术简介 CAE产品及HPC性能分析

3 CAE HPC技术简介 两种内存构架的硬件系统 两种并行算法 共享内存,SMP Server 分布内存,Cluster Server
共享内存并行算法-SMP(OpenMP) 分布内存并行算法-DMP(PVM, MPI)

4 CAE HPC技术简介 共享内存并行算法 只能在SMP Server上运行 多个CPU或计算内核共享一个内存寻址空间 优势: 劣势:
<8路并行效率高 并行代码相对简单 安装调试简单 劣势: >8路内存带宽瓶颈 可扩展性较差

5 CAE HPC技术简介 分布内存并行算法 能在SMP Server或Cluster Server上运行 每个计算进程独享一段连续的内存空间
Cluster中的每台计算机内部可以是SMP构架 优势: 优秀的可扩展性 劣势: 并行代码相对复杂 安装运行相对复杂

6 CAE HPC技术简介 互联 (Interconnect) - 计算节点之间的数据交换的硬件和通讯协议
常见的互联种类 以太网 (百兆/千兆/万兆) Myrinet (Myricom, Inc.) Infiniband (Voltaire, Silverstorm, Cisco, etc.) QsNet (Quadrics Ltd.) MPI (Message Passing Interface) - 计算进程间的数据交换的软件中间件 常见的MPI软件 MPICH(2) LAM MPI HP MPI MS MPI

7 CAE HPC技术简介 评价互联的性能指标 带宽:单位时间能够传输的数据量,通常以每秒多少比特来表示
千兆以太网的理论带宽:1G bit/s Myrinet, Infiniband, QsNet等:10Gb~几百Gb/s 延迟:一个信息包从一个节点传输到另一个 节点所需要的时间 千兆以太网:几十到几百微秒 Myrinet, Infiniband, QsNet等高速互联:几微妙 扩展性:集群可以扩展的CPU或节点数量 低CPU占用:互联占用CPU资源的比率

8 CAE HPC软件

9 CAE HPC软件

10 HPC简介及性能分析 全面支持最新的32/64位双核处理器和操作系统 与众多软、硬件厂商有着广泛的合作 多种平台代码优化,提高并行效率
Windows 32&64-bit / Linux / Unix IA-32, Intel EM64T & Itanium2(IA-64), AMD64, RISC 与众多软、硬件厂商有着广泛的合作 Microsoft / HP / SGI / IBM / Sun / Intel / AMD 多种平台代码优化,提高并行效率 Windows CCS 2003, MS-MPI SGI ProPack 3/4, MPT HP, HP-MPI

11 HPC简介及性能分析 对FEA求解器不断进行优化和创新 19xx年xx月,第一个SMP版本(V4.3)
2000年11月,第一个DMP—DDS 2003年11月,DPCG, DJCG 2004年05月,1.11亿自由度 2004年06月,支持x64; 2004年11月,DSPARSE, DANSYS 2005年08月,高速互联(如Voltaire) 2005年11月,SC05展示支持WCCS 2006年11月,DLANPCG(v11) ……

12 HPC简介及性能分析 2004年5月,ANSYS在纳斯达克股市发布求解一亿自由度的有限元问题。

13 HPC简介及性能分析 SC05, 西雅图, ANSYS在WCCS上的演示:
操作系统: Windows Compute Cluster Server 2003 应用软件: ANSYS 11.0 开发版 硬件系统: 四台双路Intel Xeon服务器+一台双路工作站 互联: Infiniband (Voltaire ) 模型:24M自由度汽车悬挂

14 HPC简介及性能分析 ANSYS求解器的HPC特性: 大内存 高性能IO 高性能互联

15 基于Intel Woodcrest的主板 16个内存插槽!!!
HPC简介及性能分析 ANSYS 对内存的需求: 每百万自由度需要的内存 DPCG, 大约 GB/MDOF DPCG (MSAVE,ON), 大约0.5~0.7G/MDOF DSPARSE (out-core), 1~1.5 GB/MDOF DSPARSE (In-core), 10~15GB/MDOF 虚拟内存(或swap)严重影响速度 内存的存取速度是硬盘的几十~几百倍! 计算主进程比从进程需要更大内存 主进程担负更多 (数据管理、域划分等) 32-bit 还是 64-bit 232 = 4,294,967,296 (4 GB) 264 = 18,446,744,073,709,551,616 基于Intel Woodcrest的主板 16个内存插槽!!!

16 HPC简介及性能分析

17 HPC简介及性能分析 ANSYS 11.0 Preview5
曙光A950, 8路16核, 32G内存, 3x73GB Ultra 320 SCSI Raid0 Windows Enterprise Server 2003 x64 + Compute Cluster Pack 45M DOF, 线性静力分析, DPCG求解器(MSAVE,ON), MS-MPI, 4CPU并行

18 HPC简介及性能分析 峰值内存占用达30G! 结果文件达13G! Solver Time 6.6小时 Wall Time 12.3小时

19 HPC简介及性能分析 ANSYS对I/O的需求: 每百万自由度需要的存储空间 主进程需要持续的高性能I/O I/O
DPCG, 大约 0.5 GB/MDOF DSPARSE (out-core), 大约10 GB/MDOF 主进程需要持续的高性能I/O 减少I/O对CPU的占用 避免共享文件夹/NFS 并行I/O系统(Raid 0) I/O

20 HPC简介及性能分析 ANSYS 支持所有主流的高速互联: Ethernet (Gigabyte, 10G) Myrinet
Infiniband (Voltaire) Quadric 即使的CPU数量较少, Infiniband比千兆以太 网仍有明显优势。

21 HPC简介及性能分析 ANSYS对CPU的要求: 64位(32位?) 高浮点运算能力 支持双核或多核 高浮点运算能力(赛扬?)

22 CAE HPC软件

23 HPC简介及性能分析 精确、可靠、高效、成熟的一流商用CFD软件 (Fully Implicit, coupled multigrid solver) 全面支持最新的HPC技术 大规模集群计算 双核、多核、64-bit 高速互联(Myri, IB, etc.) 不断提高代码并行效率 Microsoft, WCCS 2003 HP, HP-MPI SGI, ProPack MPT

24 HPC简介及性能分析 高并行度:384+CPU并行,64CPU以下接近线性 高灵活性:允许Windows/Linxu/Unix混合并行!
高易用性:设置极为简单,自动/定制并行域划分 高适用性:支持所有物理模型(多参考系/多相流/燃烧/等)

25 HPC简介及性能分析 多种域划分方式

26 HPC简介及性能分析 CPU的增多并不显著增加总内存的需求 4.2M单元,总内存随CPU增加基本保持恒定(15%)
主进程不需要比从进程更多内存 小内存的集群可求解大问题!

27 HPC简介及性能分析 “杀富济贫”功能

28 HPC简介及性能分析 并行有串行求解同样“美丽”的“减肥”(收敛)曲线 16 Partitions 16-CPU 单CPU

29 HPC简介及性能分析 CFX求解器的HPC特性: 足够的内存即可(建议最多4G/核) Hexa 大约0.9~1G / 1M单元
Tetra 大约0.65~0.7G / 1M单元 I/O要求不高(相对ANSYS) 大约0.5G / 1M单元 需要多CPU多核 集群

30 HPC简介及性能分析 Test case: bigpipe

31 HPC简介及性能分析 CFX在512-CPU的CRAY-T3E超级计算机上的并行测试。 300万节点问题。

32 安世亚太CAE HPC软件

33 HPC简介及性能分析 专门解决冲击、爆轰等问题的非线性动力学显式分析软件 丰富的求解器
Lagrange, Euler, ALE, SPH, etc. 支持的计算平台及并行中间件 Microsoft Windows, WMPI Linux x64 & IA-64(Itanium2), PVM, HP-MPI(soon) HP-UX, PVM, HP-MPI(soon) Processor 1 Processor 4 Processor 3 Processor 2

34 HPC简介及性能分析 高性能并行求解器

35 HPC简介及性能分析 飞机撞击世贸大厦的模拟 强大的并行 计算能力 重启动功能
展示了AUTODYN重启动和并行运算的能力。首先计算了静力(预应力),然后模拟飞机冲撞过程。计算不仅包括局部破坏,还包含对整楼的影响。随后用户大户燃烧了很少时间(105分钟,这对显式求解器时间太长了),ATUODYN做了一次重启动,计算了燃油泼溅的区域的燃烧引起的局部强度和刚度的降低。最后重新启动模拟了由于大厦结构强度和刚度的降低,重力自身重力导致的整楼的倒塌。 This example demonstrates the very comprehensive restart and parallel processing capabilities of AUTODYN. After computing the static equilibrium of the building under gravity, the airplane is added to the “pre-stressed” building model allowing the subsequent impact simulation, wherein damage is evaluated both locally as well as throughout the building. Since the resulting fire lasted too long for an explicit solver (i.e., 105 minutes in the North Tower), the subsequent restart provides a reduction of the strength and stiffness of the local area over which the jet fuel was predicted to spread out. Once the local strength has been reduced, the final restart is made for the progressive collapse of the weakened building driven by gravity. Parallel processing is used to significantly reduce the elapsed time of the collapse simulation. The impact damage and collapse predicted by AUTODYN is compared with the observed data. The present simulation methodology can aid engineers in investigating the vulnerabilities of building design and, importantly, allow for the design and retrofit of buildings in order to lessen the probability of future catastrophic progressive collapse in a computational efficient and timely manner.

36 HPC简介及性能分析 4-CPU AUTODYN并行计算性能测试 1,728,000单元、1,771,561节点
AUTODYN 6.0, PVM

37 安世亚太CAE HPC软件

38 HPC简介及性能分析 LS-DYNA - 通用瞬态动力学有限元软件 最广泛的HPC技术的支持 硬件商最喜欢的M-CAE软件
第一个正式发布支持WCCS2003的商业CAE软件 x64平台支持多种MPI: MPICH, LAM, HP-MPI, Intel MPI, Scali 支持多种高速互联构架 Infiniand (Voltaire, etc.) Myrinet (SSC) SGI NumaLink (MPT) InfiniPath Cray RapidArray 硬件商最喜欢的M-CAE软件

39 HPC简介及性能分析 LS-DYNA MPP 970 7600.398支持的硬件/OS/互联/MPI Vendor O/S
HPC Intereconnect MPI Software AMD Opteron Linux / WCCS2003 IB Myri, Quardrics, InfiniPath, RA LAM, MPICH, HP, SCALI, MS, Cray Apple Mac OSX 10.4 LAM/MPICH FUJITSU Prime Power SUN OS 5.8 FJSVmpi2 HP PA8000 HPUX HP-MPI HP IA64 HP Alpha True 64 Compaq MPI IBM Power 4/5 AIX 5.x, Linux POE,LAM/MPI INTEL IA32 Linux, Windows IB, Myri LAM/MPI, MPICH, HP MPI, SCALI INTEL IA64 Linux IB, Myri, Quodric LAM/MPI, MPICH, HP MPI INTEL Xeon EMT64 IB, Myri, Quodric InfiniPath LAM, MPICH, HP, INTEL, SCALI, MS NEC SX6 Super-UX MPI/SX SGI Mips IRIX 6.5 X NUMAlink MPT SGI IA64 Linux with ProPack NUMAlink, IB MPT, Intel MPI, MPCIH SUN Sparc 5.8 and above Sun HPC

40 HPC简介及性能分析 3车碰撞算例 共794,789单元 150毫秒

41 HPC简介及性能分析

42 HPC简介及性能分析

43 HPC简介及性能分析 WCCS2003 / Linux上性能对比测试—上海超级计算中心 测试算例:汽车侧撞 测试机器:曙光4000A
总单元数: 745,892 总节点数: 678,733 碰撞时间: 90微秒 测试机器:曙光4000A 方案一 方案二 版本 mpp970_s_ _winx64 msmpirc1 mpp970_s_ _linux_ADM64/MPICH1.2.6_GM 操作系统 Windows server 2003 x64 + CCP Turbo Linux 8.0 With LSF HPC 6.0 节点/互联 Myrinet 2000

44 HPC简介及性能分析 测试结果对比

45 HPC简介及性能分析 LS-DYNA MPP 的HPC特性 足够的内存(建议每核2~4G) 大容量存储 高CPU浮点计算 高性能互联

46 CAE HPC软件

47 HPC简介及性能分析 唯一采用MOM/MLFMM/PO/UTD/FEM,精确方法和高频近似方法混合的专业电磁仿真软件 基于MPI的DMP算法
并行效率~0.8(32个CPU达26倍) 支持各类硬件平台和OS Windows 32 / x64 / IA64 Linux 32 / x64 /IA64) Unix

48 HPC简介及性能分析 使用多种工具调优,提高并行度 DMP开发历史 GNU gprof, Intel VTune,
IBM/Rational PurifyPlus, AMD CodeAnalyst, … DMP开发历史 1994年开始使用RPC (Remote Procedure Call) PVM 1995年开始转向MPI(MPICH, Scali, Intel MPI etc.)

49 HPC简介及性能分析 FEKO 目前可用的MPI软件: MPICH and MPICH-2 (for Windows & Linux)
ScaMPI from Scali (first MPI supporting the SCI interface) HP-MPI NEC MPI SGI MPT (e.g. for Altix with NumaFlex technology) CRAY MPT SCore GM Parastation MPI Intel MPI

50 HPC简介及性能分析 卡塞格伦天线辐射特性分析(176,606未知量)

51 HPC简介及性能分析 FEKO线性求解器(LU分解,15,324未知量): (16台双路单核Intel XEON 2.4 GHz)

52 HPC简介及性能分析 FEKO电近场/磁近场/远场计算

53 HPC简介及性能分析 FEKO并行快速多级子算法进行整船电磁分析 测试算例: 整船模型一: 3 M未知量 整船模型二: 5.7M未知量
(SGI Altix IA-64)

54 HPC简介及性能分析 FEKO并行快速多级子算法每个进程需要的内存 (3 M未知量整船模型) 未来发展方向: 提高加速比 减少内存用量

55 HPC简介及性能分析 FEKO对HPC系统的要求 海量内存 高性能I/O(out-of-core) 高速互联 高浮点CPU

56 CAE HPC软件

57 HPC简介及性能分析 NASA Ames研究中心开发的 高可信度的无粘流体分析工具 并行代码基于OpenMP & MPI
可使用Native MPI或MPICH 令人难以致信的并行度

58 HPC简介及性能分析 Cart3D 在SGI Origin 3800上的并行测试


Download ppt "CAE-CFD应用高性能集群实例分析."

Similar presentations


Ads by Google