Download presentation
Presentation is loading. Please wait.
Published byBruno Poulin Modified 5年之前
1
河南理工大学HPC集群使用培训 Henan Polytechnic University 现代教育技术中心 高性能计算平台
2
目录 1 Click to add Title 2 集群概览 如何使用 3 实例
3
机群概况
4
机群拓扑图 校园网/Internet Mac/Windows/Linux-Client 千兆管理网 千兆计算网 56GB IB网
终端访问控制、作业提交 56GB IB网 千兆管理网 Mac/Windows/Linux-Client 旧机群1各计算节点 IO节点 千兆交换机 56GB IB交换机 存储 100GB IB网 100GB IB交换机 元数据访问 数据访问 HA 分布式存储 元数据服务器A 元数据服务器B 对象数据服务器B 对象数据服务器A 对象数据服务器C 管理节点 高密度计算节点 异构节点 FC 旧机群2各计算节点 校园网/Internet 千兆计算网 千兆交换机
5
机柜摆放图
6
主机名与IP地址 mgr外网访问IP为:122.207.187.40 队列划分情况如下: a: node51-node80
b: node87 e: node81-node86( 无IB)
7
共享存储 说明: 原来的管理节点node100单纯用作NFS服务器,不再作管理节点
8
目录 1 Click to add Title 2 集群概览 如何使用 3 实例
9
操作系统-linux介绍 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。
10
登录-ssh协议介绍 SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。 SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。 SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。SSH在正确使用时可弥补网络中的漏洞。 SSH客户端适用于多种平台。几乎所有UNIX平台—包括HP-UX、Linux、AIX、Solaris、Digital UNIX、Irix,以及其他平台,都可运行SSH。
11
登录-linux&mac用户 直接使用ssh协议 SSH 用户名@122.207.187.40 或者
SSH l 用户名 然后输入密码即可。
12
登录-windows用户 需要使用一些远程连接linux系统的辅助工具,比如SSH Secure Shell Client、XManager(收费,其中包含Xshell(免费) 和XFTP)、Putty等工具。 SSH Secure Shell Client有的时候可能会出现乱码问题,Xshell更好一些。
13
登录-windows用户(Xshell篇)
14
登录-windows用户(Xshell篇)
15
登录-windows用户(Xshell篇)
16
登录-windows用户(Xshell篇)
17
登录-windows用户(Xshell篇)
18
登录-windows用户( SSH Secure Shell 篇)
19
登录-windows用户( SSH Secure Shell 篇)
20
登录-windows用户( SSH Secure Shell 篇)
21
文件传输-linux&mac用户 使用SCP命令即可从本地服务器复制到远程服务器: (1) 复制文件: 命令格式:
(1) 复制文件: 命令格式: 或者 scp local_file remote_ip:remote_folder scp local_file remote_ip:remote_file 第1,2个指定了用户名,命令执行后需要输入用户密码,第1个仅指定了远程的目录,文件名字不变,第2个指定了文件名 第3,4个没有指定用户名,命令执行后需要输入用户名和密码,第3个仅指定了远程的目录,文件名字不变,第4个指定了文件名
22
文件传输-linux&mac用户 使用SCP命令即可从本地服务器复制到远程服务器: (2) 复制目录: 命令格式:
(2) 复制目录: 命令格式: 或者 scp -r local_folder remote_ip:remote_folder 第1个指定了用户名,命令执行后需要输入用户密码; 第2个没有指定用户名,命令执行后需要输入用户名和密码;
23
文件传输-windows用户 Windows用户可以用SSH Secure Shell Client,winscp等软件实现文件的上传下载
24
文件传输-windows用户
25
Linux基本命令 -cd 一、Linux cd命令语法 cd [dirName] dirName:要切换的目标目录。
跳入test目录: testDir/ 跳至上层目录 .. 跳至上上层目录 ../../ 跳入用户主目录 ~/ 使用绝对路径 /public3/home 跳入上次使用目录 -
26
Linux基本命令 -ls 一、Linux ls命令语法 ls [选项] [参数] ls用来显示目标列表 二、Linux ls命令实例
显示当前目录下非隐藏文件与目录: -a -l -lt 按修改时间列出文件和文件夹详细信息 -ltr
27
Linux基本命令 –cp 一、Linux cp命令语法 cp [选项] [参数]
将文件file复制到目录/usr/tmp下,并改名为file1: file /usr/tmp/file1 将目录/usr/men下的所有文件及其子目录复制到目录/usr/zh中 -r /usr/men /usr/zh 此命令中所有参数既可以是绝对路径名,也可以是相对路径名。通常会用到点.或点点..的形式。 所有目标文件指定的目录必须是己经存在的,cp命令不能创建目录。如果没有文件复制的权限,则系统会显示出错信息。
28
Linux基本命令 –mv 一、Linux mv命令语法 mv [选项] 源文件或目录 目标文件或目录
mv命令用来移动文件及目录或者重命名文件及目录,cp命令与mv命令在很多功能上都非常相似,但是又具有很大的区别,其中最大的区别在于cp命令的使用会保留源文件和目录,而mv命令则会将源文件或者目录删除。 二、Linux mv命令实例 mv file1 file2 将file1重命名为file2 mv file1 dir 将file1移动到dir目录 mv dir1/ dir2 dir2已存在,将dir1移动到dir2目录;dir2不存在则改名
29
Linux基本命令 一、新建文件夹 mkdir test ----在当前目录下新建一个test文件夹 二、删除文件夹
rmdir test 将test文件夹删除 rmdir -p test/test1 删除test1,如果test为空,一并删除 三、查看当前目录 pwd 显示当前所在目录 四、查看文件内容 cat filename ---显示文件内容 对于长文件,可以用more、less、tail、head等指令。
30
Linux基本命令 –rm 一、Linux rm命令语法 rm [选项] [参数] rm命令用于删除一个文件或者目录
# rm test.txt rm:是否删除 一般文件 "test.txt"? y # rm homework rm: 无法删除目录"homework": 是一个目录 # rm -r homework rm:是否删除 目录 "homework"? y
31
Linux基本命令 –vi&vim 所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。 vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。
32
vi&vim实例 新建一个hpu.txt文件 vim hpu.txt
33
vi&vim实例 按下 i 进入输入模式(也称为编辑模式),开始编辑文字
在一般模式之中,只要按下 i, o, a 等字符就可以进入输入模式了! 在编辑模式当中,你可以发现在左下角状态栏中会出现 –INSERT- 的字样,那就是可以输入任意字符的提示。 这个时候,键盘上除了 Esc 这个按键之外,其他的按键都可以视作为一般的输入按钮了,所以你可以进行任何的编辑。
34
vi&vim实例 按下 ESC 按钮回到一般模式
好了,假设我已经按照上面的样式给他编辑完毕了,那么应该要如何退出呢?是的!没错!就是给他按下 Esc 这个按钮即可!马上你就会发现画面左下角的 – INSERT – 不见了! 在一般模式中按下 :wq 储存后离开 vi OK,我们要存档了,存盘并离开的指令很简单,输入 :wq 即可保存离开!
35
vi&vim实例
36
作业调度系统
37
作业调度系统 – PBS简介 PBS(Portable Batch System)
最初由NASA的Ames研究中心开发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由 PBS的开源版本为OpenPBS,目前已经停止开发 PBS的商业版为PBS Pro,由Altair公司开发和维护 TORQUE ( Tera-scale Open-source Resource and Queue manager )为 OpenPBS的后续开源版本,修正了OpenPBS的很多bug,功能和可扩展性都有很大提高
38
作业调度系统 – PBS组成 PBS server sched mom cmd
39
作业调度系统 – 作业提交 执行 调度 排队 提交 准备 准备:编写描述改作业的脚本,包括作业名,需要的资源等。
提交:使用qsub命令将该作业提交给PBS服务器 排队:服务器将该任务排入适当的队列 调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。 执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及错误信息显示。
40
作业调度系统 – PBS作业提交命令 在PBS系统中,使用 qsub 命令提交作业 PBS作业脚本:应用程序命令 + PBS环境变量
41
作业调度系统 – 作业提交脚本 本质是一个 shell 脚本 注释以“#”开头 PBS运行时参数,以“#PBS”开头
42
作业调度系统 – 实例 #!/bin/bash #PBS -N test #PBS -q default
#PBS -l nodes=1:ppn=8 #PBS -j oe source /share/scripts/intel.env cd $PBS_O_WORKDIR mpirun /public3/apps/vasp-5.4.1/vasp
43
作业调度系统 – PBS运行时参数 以下参数在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高 运 行 参 数
说 明 -a <作业开始运行的时间> 向PBS系统指定作业运行的开始时间。 作业运行时间格式为: [[[[CC]YY]MM]DD]hhmm[.SS] -A <用户名> 使用不同的用户来提交作业,缺省使用当前用户名 -o <标准输出文件的路径> -e <标准错误输出的路径> 该参数指定标准错误输出的位置,缺省的情况下,PBS系统把标准输出和标准错误输出放在用户qsub命令提交作业的目录下。 标准错误输出:<作业名>.o<作业号> 标准错误输出:<作业名>.e<作业号> 路径使用如下格式标准: [<节点名>:]<路径名> -N <作业名> 指定提交的作业名 -q <目标队列> 指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点名或者是目标节点上的队列。如果目标队列是一个路由队列,那么服务器可能把作业路由到新的队列中。如果该参数没有指定,命令qsub会把作业脚本提交到缺省的队列中。 -l <申请资源列表> 该参数指定作业脚本申请的PBS系统资源列表。 申请资源列表使用如下格式: <资源名>[=[<数量>]][,资源名[=[<数量>]], …..] 例如作业希望申请在双路节点上申请5个CPU资源的情况, 则可以在脚本中如下: #PBS –l nodes=2:ppn=2+1:ppn=1
44
作业调度系统 – PBS环境变量 变 量 名 说 明 登陆SHELL继承来的变量
说 明 登陆SHELL继承来的变量 包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。 $PBS_O_HOST qsub提交的节点名称 $PBS_O_QUEUE qsub提交的作业的最初队列名称 $PBS_O_WORKDIR qsub提交的作业的绝对路径 $PBS_JOBID 作业被PBS系统指定的作业号 $PBS_JOBNAME 用户指定的作业名,可以在作业提交的时候用qsub –N <作业名>指定,或者在PBS脚本中加入#PBS –N <作业名>。 $PBS_NODEFILE PBS系统指定的作业运行的节点名。该变量在并行机和机群中使用。当在PBS脚本中用#PBS –l nodes=2:ppn=2指定程序运行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统指定的作业运行的节点名。比如: #PBS –l nodes=2:ppn=2 mpirun –np 4 –machinefile $PBS_NODEFILE <程序名> $PBS_QUEUE PBS脚本在执行时的队列名
45
作业调度系统 – 查询作业状态 作业提交后,会生成一个作业号,如: [test@mgr ~]$ qsub test.pbs 93.mgr
查看集群作业运行状态: ~]$ qstat Job id Name User Time Use S Queue 93.mgr test.pbs test R default 95.mgr vasp.Hg vasp E default 111.mgr structure amber Q default 作业状态说明: E:退出 Q:排队 H :挂起 R :运行 C:结束 查询某个作业运行状态: qstat 93.mgr (或者 qstat 93) 显示作业运行在哪些节点上: qstat -an 93 显示作业运行详细信息: qstat -f 93
46
作业调度系统 – 查询节点状态信息 Free 代表节点还有空闲cpu资源,down代表节点down机,excl代表节点繁忙,没有空闲资源
47
作业调度系统 – 删除作业 [test@mgr ~]$ qstat Job id Name User Time Use S Queue
93.mgr test.pbs test R default 95.mgr vasp.Hg vasp E default 111.mgr structure amber Q default ~]$ qdel 93 注:普通用户只能删除自己的作业,管理员可以删除所有用户作业
48
目录 1 Click to add Title 2 集群概览 如何使用 3 实例
49
Guass软件范例 1.登录集群,这个不再赘述。 2.编写pbs脚本。 脚本内容如下: 其中g09.sh内容如下:
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反 本例中,算例和脚本在一个目录。
50
Guass软件范例 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回 5.作业完成,查看log
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反
51
MS软件范例-castep 1.登录集群,这个不再赘述。 2.编写pbs脚本。 脚本内容如下: 其中ms08.sh内容如下:
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反 本例中,在目录下应该有: 3DAtomistic.cell,3DAtomistic.param和一个后缀为.usp的文件。
52
MS软件范例-castep 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回 5.作业完成,查看log,执行
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反
53
matlab软件范例 1.登录集群,这个不再赘述。 2.编写.m文件
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反
54
matlab软件范例 3.编写pbs脚本。 脚本内容如下:
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反
55
matlab软件范例 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回
1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反
56
The end.
Similar presentations