周纯葆中国科学院计算机网络信息中心超级计算中心

周纯葆中国科学院计算机网络信息中心超级计算中心 zhoucb@sccas.cn
MPI编程基础周纯葆中国科学院计算机网络信息中心超级计算中心

提纲并行计算 MPI预备知识 MPI系统环境管理点对点通讯聚合通讯

并行计算并行计算是指，在并行机上，将一个应用分解成多个子任务，分配给不同的处理器，各个处理器之间相互协同，并行地执行子任务，达到加速求解效果，或者求解大规模应用问题的目的。重要要素: 并行机算法设计并行编程

共享存储均匀访存(UMA：Uniform Memory Access) 内存与结点分离，存储为所有结点共享
所有结点任意访问存储单元，且时间相同访存竞争时，仲裁策略平等对待每个处理器各处理器带有局部高速缓存cache 单一的操作系统映象对称多处理共享存储并行机 SMP

共享存储非均匀访存(NUMA: Non-uniform Memory Access) 内存模块局部在各个结点内，所有局部内存构成全局内存
所有结点任意访问各存储单元，但速度和时间不等访存竞争时，仲裁策略对待每个处理器可能不等价各处理器带有局部高速缓存cache，以及保持缓存一致性的协议，此又称cache一致性的非均匀存储——ccNUMA 单一操作系统映象分布共享存储并行机 DSM

分布式存储内存模块物理分布同前，每个结点拥有局部内存模块各结点存储模块只能被局部CPU访问访问其他结点内存，可通过消息传递实现
各结点拥有不同的操作系统映象结点内和结点间的互连通常都有特殊的技术来提高通讯速度，其操作系统不是开放的，而是制造者专有大规模并行机 MPP

混和存储结点内部是共享存储模型结点间是分布式存储模型各结点拥有不同的操作系统映象

并行编程共享存储系统 (SMP, DSM) 分布式存储系统 (MPP) 混合式存储系统进程通过读写共享数据缓存区实现 OpenMP
消息传递接口分布式存储系统 (MPP) 混合式存储系统 MPI+OpenMP混合编程进程通过读写共享数据缓存区实现通过socket网络通信实现通过socket网络通信实现

Message Passing Interface
什么是MPI （Message Passing Interface）是函数库规范，而不是并行语言；操作如同库函数调用是一种标准和规范，而非某个对它的具体实现（MPICH等），与编程语言无关是一种消息传递编程模型，并成为这类编程模型的代表什么是消息（message）? DATA+ENVELOPE MPI是一种实现手段

MPI编程

MPI编程头文件： MPI函数调用： C include file Fortran include file
#include "mpi.h" include 'mpif.h' C Binding Format: rc = MPI_Xxxxx(parameter, ... ) Example: rc = MPI_Bsend(&buf,count,type,dest,tag,comm) Error code: Returned as "rc". MPI_SUCCESS if successful Fortran Binding Format: CALL MPI_XXXXX(parameter,..., ierr) call mpi_xxxxx(parameter,..., ierr) Example: CALL MPI_BSEND(buf,count,type,dest,tag,comm,ierr) Error code: Returned as "ierr" parameter. MPI_SUCCESS if successful

编译与运行程序编译程序运行 C: mpicc -o mpiprog mpisrc.c
Fortran 77: mpif77 -o mpiprog mpisrc.f90 程序运行 mpirun -np 4 ./mpiprog 单处理器 (tp5) 运行4个进程 4个处理器 (tp1, tp2, tp3, tp4) 分别运行4个进程

程序流程

使用进程的地址空间，有私有栈，各线程栈不相交
进程与线程进程与线程进程操作系统资源分配的最小单位资源特征 + 执行特征比喻为管家至少包含一个线程拥有自己的地址空间线程操作系统调度执行的最小单位继承执行特征比喻为苦力属于某个进程使用进程的地址空间，有私有栈，各线程栈不相交

进程单个进程（process）进程与程序相联，程序一旦在操作系统中运行即成为进程。进程拥有独立的执行环境（内存、寄存器、程序计数器等），是操作系统中独立存在的可执行的基本程序单位串行应用程序编译形成的可执行代码，分为“指令”和“数据”两个部分，并在程序执行时“独立地申请和占有”内存空间，且所有计算均局限于该内存空间。进程1 进程2 内存

进程包含于通过网络联接的不同处理器的多个进程进程独立存在，并位于不同的处理器，由各自独立的操作系统调度，享有独立的CPU和内存资源
进程间相互信息交换，可依靠消息传递最基本的消息传递操作包括发送消息send、接受消息receive、进程同步barrier、归约reduction等

初始化MPI系统 C: Fortran 77: 通常为第一个调用的MPI函数，除MPI_Initialized外
int MPI_Init(int *argc, char *argv[]) Fortran 77: MPI_INIT(IERROR) INTEGER IERROR 通常为第一个调用的MPI函数，除MPI_Initialized外只被调用一次在C接口中，MPI系统通过argc和argv得到命令行参数

获取进程数和标号 C: Fortran 77: int MPI_Comm_size(MPI_Comm comm, int *size)
int MPI_Comm_rank(MPI_Comm comm, int *rank) Fortran 77: MPI_COMM_SIZE(COMM, SIZE, IERROR) MPI_COMM_RANK(COMM, RANK, IERROR) INTEGER COMM, SIZE, RANK, IERROR

退出MPI系统 C: Fortran 77: int MPI_Finalize(void) MPI_FINALIZE(IERROR)
用户在调用该函数前，应确保非阻塞通讯结束

异常终止MPI程序 C: Fortran 77: int MPI_Abort(MPI_Comm comm, int errorcode)
MPI_ABORT(COMM, ERRORCODE, IERROR) INTEGER COMM, ERRORCODE, IERROR 在出现了致命错误而希望异常终止MPI程序时执行 MPI系统会设法终止comm通信器中所有进程输入整型参数errorcode，将被作为进程的退出码返回给系统

获取处理器的名称 C: MPI_Get_processor_name(char *name, int *resultlen) Fortran 77: MPI_GET_PROCESSOR_NAME(NAME, RESULTLEN, IERR) 在返回的name中存储所在处理器的名称 resultlen存放返回名字所占字节应提供参数name不少于MPI_MAX_PRCESSOR_NAME个字节的存储空间

获取墙上时间 C: Fortran 77: double MPI_Wtime(void)
DOUBLE PRECISION MPI_WTIME() 返回调用时刻的墙上时间，用浮点数表示秒数经常用来计算程序运行时间

点对点通讯两个进程之间的通信源进程发送消息到目标进程目标进程接收消息通信发生在同一个通信器内进程通过其在通信器内的标号表示
1 2 3 4 5 destination source communicator 两个进程之间的通信源进程发送消息到目标进程目标进程接收消息通信发生在同一个通信器内进程通过其在通信器内的标号表示 MPI系统的通信方式都建立在点对点通信之上

阻塞式消息发送 C: int MPI_Send(void *buf, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm) Fortran 77: MPI_SEND(BUF, COUNT, DATATYPE, DEST, TAG, COMM, IERROR) count 不是字节数，而是指定数据类型的个数 datatype可是原始数据类型，或为用户自定义类型 dest取值为0～np-1，或MPI_PROC_NULL (np是comm中的进程总数) tag 取值范围是 0～MPI_TAG_UB，用来区分消息

阻塞式消息接收 C: int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status) Fortran 77: MPI_RECV(BUF, COUNT, DATATYPE, SOURCE, TAG, COMM, STATUS, IERROR) count是接受缓存区的大小，表示接受上界，具体接受长度可用MPI_Get_count 获得 source 取值范围是 0～np－1，或MPI_PROC_NULL和MPI_ANY_SOURCE tag 取值范围是 0～MPI_TAG_UB，或MPI_ANY_TAG

消息 (message)

数据类型 C Data Types Fortran Data Types MPI_CHAR signed char
MPI_CHARACTER character MPI_SHORT signed short int MPI_INT signed int MPI_INTEGER integer MPI_LONG signed long int MPI_UNSIGNED_CHAR unsigned char MPI_UNSIGNED_SHORT unsigned short int MPI_UNSIGNED unsigned int MPI_UNSIGNED_LONG unsigned long int MPI_FLOAT float MPI_REAL real MPI_DOUBLE double MPI_DOUBLE_PRECISION double precision MPI_LONG_DOUBLE long double MPI_BYTE 8 binary digits MPI_PACKED MPI_Pack()

标准阻塞式通信是否对发送数据进行缓存，由MPI系统决定，而非程序员阻塞：发送成功，意味（1）消息成功发送；（2）或者消息被缓存
接收成功，意味消息已被成功接收

消息传递成功发送进程需指定一个有效的目标接收进程接收进程需指定一个有效的源发送进程接收和发送消息的进程要在同一个通信器内
接收和发送消息的 tag 要相同接收缓存区要足够大

消息传递例子

其他点对点通讯捆绑发送与接收捆绑发送和接收，收发使用同一缓存区缓存消息发送函数同步消息发送函数就绪消息发送函数
MPI_SENDRECV(SENDBUFF, SENDCOUNT, SENDTYPE, DEST, SENDTAG, RECVBUFF, RECVCOUNT, RECVTYPE, SOURCE, RECVTAG, COMM, STATUS, IERR) 捆绑发送和接收，收发使用同一缓存区 MPI_SENDRECV_REPLACE(BUFF, COUNT, DATATYPE, DEST, SENDTAG, SOURCE, RECVTAG, COMM, STATUS, IERR) 缓存消息发送函数同步消息发送函数就绪消息发送函数 MPI_Bsend MPI_Ssend MPI_Rsend

阻塞式通信与非阻塞式通信通信类型函数返回对数据区操作特性阻塞式通信阻塞型函数需要等待指定操作完成返回
或所涉及操作的数据要被MPI系统缓存安全备份后返回函数返回后，对数据区操作是安全的程序设计相对简单使用不当容易造成死锁非阻塞式通信调用后立刻返回，实际操作在MPI后台执行需调用函数等待或查询操作的完成情况函数返回后，即操作数据区不安全。可能与后台正进行的操作冲突可以实现计算与通信的重叠程序设计相对复杂

阻塞式通信与非阻塞式通信

非阻塞式点对点通信

阻塞型与非阻塞型通信函数

聚合通讯一个通信器的所有进程参与，所有进程都调用聚合通信函数 MPI系统保证聚合通信函数与点对点调用不会混淆聚合通信不需要消息标号
聚合通信函数都为阻塞式函数聚合通信的功能：通信、同步、计算等 communicator 5 2 1 3 4

三种通信方式一对多多对一多对多

聚合函数列表 MPI_Barrier MPI_Bcast MPI_Gather/MPI_Gatherv
MPI_Allgather/MPI_Allgatherv MPI_Scatter/MPI_Scatterv MPI_Alltoall/MPI_Alltoallv MPI_Reduce/MPI_Allreduce/MPI_Reduce_scatter MPI_Scan

同步该函数用于进程同步，即一个进程调用该函数后需等待通信器内所有进程调用该函数后返回

√ 同步 …… CALL MPI_COMM_RANK(COMM,RANK,IERR) IF(RANK.EQ.0) THEN
CALL WORK0(……) ELSE CALL WORK1(……) CALL MPI_BARRIER(COMM,IERR) CALL WORK2(……) …… CALL MPI_COMM_RANK(COMM,RANK,I ERR) IF(RANK.EQ.0) THEN CALL WORK0(……) CALL MPI_BARRIER(COMM,IERR) ELSE CALL WORK1(……) CALL WORK2(……) √

广播

散发

收集

规约

MPI Reduction Operation
规约 MPI Reduction Operation C Data Types Fortran Data Type MPI_MAX maximum integer, float integer, real, complex MPI_MIN minimum MPI_SUM sum MPI_PROD product MPI_LAND logical AND integer logical MPI_BAND bit-wise AND integer, MPI_BYTE MPI_LOR logical OR MPI_BOR bit-wise OR MPI_LXOR logical XOR MPI_BXOR bit-wise XOR MPI_MAXLOC max value and location float, double and long double real, complex,double precision MPI_MINLOC min value and location real, complex, double precision

周纯葆中国科学院计算机网络信息中心超级计算中心

Similar presentations

Presentation on theme: "周纯葆中国科学院计算机网络信息中心超级计算中心"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

周纯葆 中国科学院计算机网络信息中心 超级计算中心

Similar presentations

Presentation on theme: "周纯葆 中国科学院计算机网络信息中心 超级计算中心"— Presentation transcript:

Similar presentations

About project

反馈

周纯葆中国科学院计算机网络信息中心超级计算中心

Presentation on theme: "周纯葆中国科学院计算机网络信息中心超级计算中心"— Presentation transcript: