华南理工大学陈虎博士 tommychen74@yahoo.com.cn OpenMP并行程序设计简介华南理工大学陈虎博士 tommychen74@yahoo.com.cn.

Slides:

Advertisements

Similar presentations

阻塞操作. 在 linux 里，一个等待队列由一个 wait_queue_head_t 类型的结构来描述等待队列的初始化： static wait_queue_head_t testqueue; init_waitqueue_head(&testqueue);

Advertisements

1 Programming with Shared Memory 共享存储器程序设计 Part 2.

第一章 C语言概述计算机公共教学部.

指導老師:楊淑娥組別:第一組成員:劉怡萱4a0i0066 吳珮瑜4a0i0070 林秋如4a0i0075 陳婉婷4a0i0076

Oracle数据库 Oracle 子程序.

周纯葆中国科学院计算机网络信息中心超级计算中心

C++中的声音处理在传统Turbo C环境中，如果想用C语言控制电脑发声，可以用Sound函数。在VC6.6环境中如果想控制电脑发声则采用Beep函数。原型为： Beep(频率,持续时间) , 单位毫秒暂停程序执行使用Sleep函数 Sleep(持续时间), 单位毫秒引用这两个函数时，必须包含头文件

全国计算机等级考试二级基础知识第二章程序设计基础.

并行算法实践上篇并行程序设计导论.

机群应用开发并行编程原理及程序设计 Parallel Programming: Fundamentals and Implementation 马少杰曙光信息产业有限公司

EBNF与操作语义请用扩展的 BNF 描述 javascript语言里语句的结构；并用操作语义的方法描述对应的语义规则

多核结构与程序设计杨全胜东南大学成贤学院计算机系.

多核结构与程序设计复习 2012年杨全胜东南大学成贤学院计算机系.

并行计算实验上机国家高性能计算中心（合肥）.

OpenMP简介和开发教程广州创龙电子科技有限公司

并行算法实践.

核探测与核电子学国家重点实验室报告人：董磊指导老师：宋克柱

EBNF 请用扩展的 BNF 描述 C语言里语句的结构；请用扩展的 BNF 描述 C++语言里类声明的结构；

授课老师：龚涛信息科学与技术学院 2018年3月教材：《Visual C++程序员成长攻略》《C++ Builder程序员成长攻略》

初识Visual Basic.

走进编程程序的顺序结构（二）.

辅导课程六.

临界区软件互斥软件实现算法.

第一单元初识C程序与C程序开发平台搭建 ---观其大略

第五讲四则运算计算器（一）精品教程《C#程序设计与应用（第2版）清华大学出版社谭恒松主编

第二章 Java语言基础.

临界区软件互斥软件实现算法主讲教师：夏莹杰

本著作除另有註明外，採取創用CC「姓名標示－非商業性－相同方式分享」台灣2.5版授權釋出

中国科学技术大学计算机系陈香兰（0551－） Spring 2009

計數式重複敘述 for 迴圈 P

十二、并行程序设计基础.

用event class 从input的root文件中，由DmpDataBuffer::ReadObject读取数据的问题

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

第1章概述本章要点： C语言程序结构和特点 C语言程序的基本符号与关键字 C语言程序的编辑及运行学习方法建议：

第4章 PHP流程控制语句.

C++语言程序设计 C++语言程序设计第七章类与对象第十一组 C++语言程序设计.

1.3 C语言的语句和关键字一、C语言的语句与其它高级语言一样，Ｃ语言也是利用函数体中的可执行语句，向计算机系统发出操作命令。按照语句功能或构成的不同，可将Ｃ语言的语句分为五类。 goto, return.

C语言程序设计主讲教师：陆幼利.

EBNF与操作语义请用扩展的 BNF 描述 javascript语言里语句的结构；并用操作语义的方法描述对应的语义规则

C语言概述第一章.

顺序表的删除.

VisComposer 2019/4/17.

C语言环境配置.

第一章程序设计和C语言主讲人：高晓娟计算机学院.

陳維魁博士儒林圖書公司第三章變數與繫結陳維魁博士儒林圖書公司.

OpenMP程序设计 2019/4/25.

<编程达人入门课程> 本节内容内存的使用视频提供：昆山爱达人信息技术有限公司官网地址：联系QQ： QQ交流群： ,

7.1 C程序的结构 7.2 作用域和作用域规则 7.3 存储属性和生存期 7.4 变量的初始化

信号量（Semaphore）.

第4章 Excel电子表格制作软件 4.4 函数（一）.

第九节赋值运算符和赋值表达式.

项目1 C程序设计起步学习目标: 通过该项目你可以知道： C语言的用途。 C语言的基本符号和关键字。 C语言程序的结构及特点。

3.16 枚举算法及其程序实现 ——数组的作用.

College of Computer Science & Technology

第二章基本数据类型 ——数据的表示.

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

#include <iostream.h>

临界区问题的硬件指令解决方案（Synchronization Hardware）

本节内容 Windows线程切换_时钟中断切换视频提供：昆山滴水信息技术有限公司官网地址：论坛地址： QQ交流：

第1章程序设计和C语言.

MultiThread Introduction

基于列存储的RDF数据管理朱敏

并行计算实验上机国家高性能计算中心（合肥）.

C++语言程序设计 C++语言程序设计第一章 C++语言概述第十一组 C++语言程序设计.

本节内容动态链接库视频提供：昆山爱达人信息技术有限公司官网地址：联系QQ： QQ交流群：联系电话：

C++语言程序设计 C++语言程序设计第九章类的特殊成员第十一组 C++语言程序设计.

C/C++基礎程式設計班 C語言入門、變數、基本處理與輸入輸出講師：林業峻 CSIE, NTU 3/7, 2015.

第三章流程控制程序的运行流程选择结构语句循环结构语句主讲：李祥时间：2015年10月.

顺序结构程序设计 ——关于“字符串”和数值.

Introduction to the C Programming Language

Presentation transcript:

华南理工大学陈虎博士 tommychen74@yahoo.com.cn OpenMP并行程序设计简介华南理工大学陈虎博士 tommychen74@yahoo.com.cn

OpenMP概述 OpenMP应用编程接口API是在共享存储体系结构上的一个编程模型 :包含编译制导(Compiler Directive),运行库例程(Runtime Library)和环境变量(Environment Variables) 支持增量并行化(Incremental Parallelization)

OpenMP历史 1994年,第一个ANSI X3H5草案提出,被否决 1997年10月公布了与Fortran语言捆绑的第一个标准规范 FORTRAN version 1.0 1998年11月9日公布了支持C和C++的标准规范C/C++ version 1.0 2000年11月推出FORTRAN version 2.0 2002年3月推出C/C++ version 2.0 2005年5月OpenMP2.5将原来的Fortran和C/C++ 标准规范相结合

OpenMP的优势,缺点优势：相对简单。不需要显式设置互斥锁，条件变量，数据范围以及初始化。可扩展。主要是利用添加并行化指令到顺序程序中，由编译器完成自动并行化。移植性好。OpenMP规范中定义的制导指令、运行库和环境变量，能够使用户在保证程序的可移植性的前提下，按照标准将已有的串行程序逐步并行化，可以在不同的产商提供的共享存储体系结构间比较容易地移植。

OpenMP的优势,缺点缺点：程序的可维护性不够好当程序比较复杂的时候，编程会显得比较困难

OpenMP的支持环境 Intel等的C++和Fortran编译器 Microsoft的Visual Studio 2005 gcc4.2以上版本也宣布对其支持（尚未正式发布）

OpenMP并行程序运行并行区间（淡蓝色）表示该部分程序计算量大，需要多个处理器共同来处理以提高效率和运行速度并行区间以外的部分表示该部分的程序不适宜或者不能并行执行，只能由一个处理器来执行

OpenMP并行编程模型 OpenMP并行编程模型基于线程的并行编程模型(Programming Model) OpenMP使用Fork-Join并行执行模型

OpenMP程序设计＃include<stdio.h> #include “omp.h” Int main() { #pragma omp parallel Printf(“hello world! \n”); } 程序的输出结果： hello world!

OpenMP程序结构基于c/c++语言的OpenMP程序的结构 #include <omp.h> main (){ int var1, var2, var3; /*Serial code*/ … /*Beginning of parallel section. Fork a team ofthreads*/ /*Specify variable scoping */ #pragma omp parallel private(var1, var2) shared(var3) { /*Parallel section executed by all threads*/ /*All threads join master thread and disband*/ } /*Resume serial code */

编译制导 OpenMP的#pragma语句的格式为 #pragma omp directive_name … #pragma omp [clause, ...] newline 制导指令前缀。对所有的OpenMP语句都需要这样的前缀。 OpenMP制导指令。在制导指令前缀和子句之间必须有一个正确的令。子句。在没有其它约束条件下，子句可以无序，也可以任意的选择。这一部分也可以没有。换行符。表明这条制导语句的终止。

编译制导作用域静态扩展孤立语句动态扩展文本代码在一个编译制导语句之后，被封装到一个结构块中一个OpenMP的编译制导语句不依赖于其它的语句动态扩展包括静态范围和孤立语句

作用域动态范围静态范围 for语句出现在一个封闭的并行域中孤立语句 critical和sections语句出现在封闭的并行域之外 #pragma omp parallel { … #pragma omp for for(…){ sub1(); } sub2(); void sub1() #pragma omp critical void sub2() #pragma omp sections

并行域结构并行域中的代码被所有的线程执行具体格式 #pragma omp parallel [clause[[,]clause]…]newline clause= if(scalar-expression) private(list) firstprivate(list) default(shared | none) shared(list) copyin(list) reduction(operator: list) num_threads(integer-expression)

共享任务结构共享任务结构将它所包含的代码划分给线程组的各成员来执行并行for循环并行sections 串行执行

for编译制导语句 for语句指定紧随它的循环语句必须由线程组并行执行；语句格式 #pragma omp for [clause[[,]clause]…] newline [clause]= Schedule(type [,chunk]) ordered private (list) firstprivate (list) lastprivate (list) shared (list) reduction (operator: list) nowait

for编译制导语句 schedule子句描述如何将循环的迭代划分给线程组中的线程如果没有指定chunk大小，迭代会尽可能的平均分配给每个线程 type为static，循环被分成大小为 chunk的块，静态分配给线程 type为dynamic,循环被动态划分为大小为chunk的块，动态分配给线程

Sections编译制导语句 sections编译制导语句指定内部的代码被划分给线程组中的各线程不同的section由不同的线程执行 #pragma omp sections [ clause[[,]clause]…] newline { [#pragma omp section newline] … }

Sections编译制导语句 clause= 在sections语句结束处有一个隐含的路障，使用了nowait子句除外 private (list) firstprivate (list) lastprivate (list) reduction (operator: list) nowait 在sections语句结束处有一个隐含的路障，使用了nowait子句除外

Sections编译制导语句 #include <omp.h>//eg2 #define N 1000 int main (){ int i; float a[N], b[N], c[N]; /* Some initializations */ for (i=0; i < N; i++) a[i] = b[i] = i * 1.0; #pragma omp parallel shared(a,b,c) private(i) { #pragma omp sections nowait #pragma omp section for (i=0; i < N/2; i++) c[i] = a[i] + b[i]; for (i=N/2; i < N; i++) } /* end of sections */ } /* end of parallel section */ }

single编译制导语句 single编译制导语句指定内部代码只有线程组中的一个线程执行。线程组中没有执行single语句的线程会一直等待代码块的结束，使用nowait子句除外语句格式： #pragma omp single [clause[[,]clause]…] newline clause= private(list) firstprivate(list) nowait

组合的并行共享任务结构 parallel for编译制导语句 parallel sections编译制导语句

同步结构 master 制导语句 critical制导语句 barrier制导语句 atomic制导语句 flush制导语句 ordered制导语句

master 制导语句 master制导语句指定代码段只有主线程执行语句格式 #pragma omp master newline

critical制导语句 critical制导语句表明域中的代码一次只能执行一个线程其他线程被阻塞在临界区语句格式： #pragma omp critical [name] newline

critical制导语句 #include <omp.h> main() { int x; x = 0; #pragma omp parallel shared(x) #pragma omp critical x = x + 1; } /* end of parallel section */ }

barrier制导语句 barrier制导语句用来同步一个线程组中所有的线程先到达的线程在此阻塞，等待其他线程语句格式 #pragma omp barrier newline

barrier制导语句 barrier正确与错误使用比较错误正确 if (x == 0) #pragma omp barrier { }

atomic制导语句 atomic制导语句指定特定的存储单元将被原子更新语句格式 atomic使用的格式 #pragma omp atomic newline atomic使用的格式 x binop = expr x++ ++x x-- --x x是一个标量 expr是一个不含对x引用的标量表达式，且不被重载 binop是+,*,-,/,&,^,|,>>,or<<之一，且不被重载

flush制导语句 flush制导语句用以标识一个同步点，用以确保所有的线程看到一致的存储器视图语句格式 #pragma omp flush (list) newline flush将在下面几种情形下隐含运行，nowait子句除外 barrier critical:进入与退出部分 ordered:进入与退出部分 parallel:退出部分 for:退出部分 sections:退出部分 single:退出部分

ordered制导语句 ordered制导语句指出其所包含循环的执行任何时候只能有一个线程执行被ordered所限定部分只能出现在for或者parallel for语句的动态范围中语句格式： #pragma omp ordered newline

threadprivate编译制导语句 threadprivate语句使一个全局文件作用域的变量在并行域内变成每个线程私有每个线程对该变量复制一份私有拷贝语句格式: #pragma omp threadprivate (list) newline

threadprivate编译制导语句 int alpha[10], beta[10], i;//eg3 #pragma omp threadprivate(alpha) int main () { /* First parallel region */ #pragma omp parallel private(i,beta) for (i=0; i < 10; i++) alpha[i] = beta[i] = i; /* Second parallel region */ #pragma omp parallel printf("alpha[3]= %d and beta[3]=%d\n",alpha[3],beta[3]); }

数据域属性子句变量作用域范围数据域属性子句 private子句 shared子句 default子句 firstprivate子句 lastprivate子句 copyin子句 reduction子句

private子句 private子句表示它列出的变量对于每个线程是局部的。语句格式 private和threadprivate区别 private(list) private和threadprivate区别 PRIVATE THREADPRIVATE 数据类型变量位置在域的开始或共享任务单元在块或整个文件区域的例程的定义上持久性否是扩充性只是词法的- 除非作为子程序的参数而传递动态的初始化使用 FIRSTPRIVATE 使用 COPYIN

shared子句 shared子句表示它所列出的变量被线程组中所有的线程共享所有线程都能对它进行读写访问语句格式 shared (list)

default子句 default子句让用户自行规定在一个并行域的静态范围中所定义的变量的缺省作用范围语句格式 default (shared | none)

firstprivate子句 firstprivate子句是private子句的超集对变量做原子初始化语句格式： firstprivate (list)

lastprivate子句 lastprivate子句是private子句的超集将变量从最后的循环迭代或段复制给原始的变量语句格式 lastprivate (list)

copyin子句 copyin子句用来为线程组中所有线程的threadprivate变量赋相同的值主线程该变量的值作为初始值语句格式 copyin(list)

reduction子句 reduction子句使用指定的操作对其列表中出现的变量进行规约初始时，每个线程都保留一份私有拷贝在结构尾部根据指定的操作对线程中的相应变量进行规约，并更新该变量的全局值语句格式 reduction (operator: list)

reduction子句 #pragma omp parallel for default(shared) private(i)\ #include <omp.h>//eg4 int main () { int i, n, chunk; float a[100], b[100], result; /* Some initializations */ n = 100; chunk = 10; result = 0.0; for (i=0; i < n; i++) a[i] = i * 1.0; b[i] = i * 2.0; } #pragma omp parallel for default(shared) private(i)\ schedule(static,chunk) reduction(+:result) for (i=0; i < n; i++) result = result + (a[i] * b[i]); printf("Final result= %f\n",result); }

reduction子句 Reduction子句的格式 x=x op expr x = expr op x (except subtraction) x binop = expr x++ ++x x-- --x x是一个标量 expr是一个不含对x引用的标量表达式，且不被重载 binop是+,*,-,/,&,^,|之一，且不被重载 op是+,*,-,/,&,^,|,&&,or||之一，且不被重载

子句/编译制导语句总结子句编译制导 PARALLEL DO/for SECTIONS SINGLE PARALLEL DO/for PARALLEL SECTIONS IF √ PRIVATE SHARED DEFAULT FIRSTPRIVATE LASTPRIVATE REDUCTION COPYIN SCHEDULE ORDERED NOWAIT

语句绑定和嵌套规则语句绑定语句DO/for、SECTIONS、SINGLE、MASTER和BARRIER绑定到动态的封装PARALLEL中，如果没有并行域执行，这些语句是无效的；语句ORDERED指令绑定到动态DO/for封装中；语句ATOMIC使得ATOMIC语句在所有的线程中独立存取，而并不只是当前的线程；语句CRITICAL在所有线程有关CRITICAL指令中独立存取，而不是只对当前的线程；在PARALLEL封装外，一个语句并不绑定到其它的语句中。

语句绑定和嵌套规则语句嵌套 PARALALL 语句动态地嵌套到其它地语句中，从而逻辑地建立了一个新队列，但这个队列若没有嵌套地并行域执行，则只包含当前的线程； DO/for、SECTION和SINGLE语句绑定到同一个PARALLEL 中，则它们是不允许互相嵌套的； DO/for、SECTION和SINGLE语句不允许在动态的扩展CRITICAL、ORDERED和MASTER域中； CRITICAL语句不允许互相嵌套； BARRIER语句不允许在动态的扩展DO/for、ORDERED、SECTIONS、SINGLE、MASTER和CRITICAL域中； MASTER语句不允许在动态的扩展DO/for、SECTIONS和SINGLE语句中； ORDERED语句不允许在动态的扩展CRITICAL域中；任何能允许执行到PARALLEL 域中的指令，在并行域外执行也是合法的。当执行到用户指定的并行域外时，语句执行只与主线程有关。

运行库例程与环境变量运行库例程 OpenMP标准定义了一个应用编程接口来调用库中的多种函数对于C/C++，在程序开头需要引用文件“omp.h” 环境变量 OMP_SCHEDULE：只能用到for,parallel for中。它的值就是处理器中循环的次数 OMP_NUM_THREADS：定义执行中最大的线程数 OMP_DYNAMIC：通过设定变量值TRUE或FALSE,来确定是否动态设定并行域执行的线程数 OMP_NESTED：确定是否可以并行嵌套

OpenMP计算实例矩形法则的数值积分方法估算Pi的值

原始串行程序 /* Seriel Code */ static long num_steps = 100000; double step; void main () { int i; double x, pi, sum = 0.0; step = 1.0/(double) num_steps; for (i=0;i< num_steps; i++){ x = (i+0.5)*step; sum = sum + 4.0/(1.0+x*x); } pi = step * sum;

OpenMP计算实例 #include <omp.h> static long num_steps = 100000; double step; #define NUM_THREADS 2 void main () { int i; double x, pi, sum[NUM_THREADS]; step = 1.0/(double) num_steps; omp_set_num_threads(NUM_THREADS); #pragma omp parallel { double x; int id = omp_get_thread_num(); for (i=id, sum[id]=0.0;i< num_steps; i=i+NUM_THREADS){ x = (i+0.5)*step; sum[id] += 4.0/(1.0+x*x); } for(i=0, pi=0.0;i<NUM_THREADS;i++) pi += sum[i] * step;

使用共享任务结构 #include <omp.h> static long num_steps = 100000; double step; #define NUM_THREADS 2 void main () { int i; double x, pi, sum[NUM_THREADS]; step = 1.0/(double) num_steps; omp_set_num_threads(NUM_THREADS) ; #pragma omp parallel double x; int id; id = omp_get_thread_num(); sum[id] = 0; //** #pragma omp for//****** for (i=0;i< num_steps; i++){ x = (i+0.5)*step; sum[id] += 4.0/(1.0+x*x); } for(i=0, pi=0.0;i<NUM_THREADS;i++)pi += sum[i] * step;

使用private和critical #include <omp.h> static long num_steps = 100000; double step; #define NUM_THREADS 2 void main () { int i; double x, sum, pi=0.0; step = 1.0/(double) num_steps; omp_set_num_threads(NUM_THREADS) #pragma omp parallel private (x, sum) id = omp_get_thread_num(); for (i=id,sum=0.0;i< num_steps;i=i+NUM_THREADS){ x = (i+0.5)*step; sum += 4.0/(1.0+x*x); } #pragma omp critical pi += sum

使用并行归并 #include <omp.h> static long num_steps = 100000; double step; #define NUM_THREADS 2 void main () { int i; double x, pi, sum = 0.0; step = 1.0/(double) num_steps; omp_set_num_threads(NUM_THREADS) #pragma omp parallel for reduction(+:sum) private(x) for (i=0;i<num_steps; i++){ x = (i+0.5)*step; sum = sum + 4.0/(1.0+x*x); } pi = step * sum;