河南理工大学HPC集群使用培训 Henan Polytechnic University 现代教育技术中心 高性能计算平台.

Slides:



Advertisements
Similar presentations
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Advertisements

集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
作业调度系统 曙光信息产业(北京)有限公司.
宁波材料所高性能计算集群普通用户培训 曙光公司.
在PHP和MYSQL中实现完美的中文显示
J2EE与中间件技术 ——Lab.
陈香兰 助教:陈博、李春华 Spring 2009 嵌入式操作系统 陈香兰 助教:陈博、李春华 Spring 2009.
第 2 章 上機使用 Unix/Linux 內容: 操作介面 主機連線 登入主機 認識系統環境 使用者常用命令.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
台灣大學計算機及資訊網路中心 教學研究組 張傑生
Linux 切换、 创建和删除目录 系统管理 宁波市高校慕课联盟课程
SVN的基本概念 柳峰
第二讲 搭建Java Web开发环境 主讲人:孙娜
第二天 计算机基础技能培训 (一)linux基础知识
存储系统.
SOA – Experiment 3: Web Services Composition Challenge
大学计算机基础 典型案例之一 构建FPT服务器.
曙光集群简明使用手册 技术支持中心.
SVN服务器的搭建(Windows) 柳峰
SQL Injection.
Linux基本操作 程設實習課 ( 2/25 ).
走进编程 程序的顺序结构(二).
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
曙光信息产业有限公司 技术支持中心 赵崇山 PBS作业调度系统 曙光信息产业有限公司 技术支持中心 赵崇山
PostgreSQL 8.3 安装要点 四川大学计算机学院 段 磊
Windows网络操作系统管理 ——Windows Server 2008 R2.
Windows网络操作系统管理 ——Windows Server 2008 R2.
北京师范大学并行计算实验室 作业调度.
ENS 10.1安装配置指南 王俊涛 | SE.
第四章 附件 (应用程序软件包).
作业调度系统常用命令.
Windows 7 的系统设置.
YMSM D-PACK 安装手册 作成者:D-PACK维护组(YMSLx) 作成日:
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
三:基于Eclipse的集成开发环境搭建与使用
SOA – Experiment 2: Query Classification Web Service
第二章 登录UNIX操作系统.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
微机系统的组成.
第四章 团队音乐会序幕: 团队协作平台的快速创建
UNIX指令-檔案與目錄操作.
姚金宇 MIT SCHEME 使用说明 姚金宇
杨振伟 清华大学 第一讲:Linux环境下编程(1)
实验七 安全FTP服务器实验 2019/4/28.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
教育部 财政部 网络教育数字化学习资源中心平台系统 安装与配置
Web安全基础教程
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
文档创建与发布操作要点 青海省教育信息中心 2018年12月18日.
《手把手教你学STM32-STemWin》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司
Lab01 工作站&Linux操作 日期:2011/03/07.
本节内容 文件系统 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
Visual Basic程序设计 第13章 访问数据库
基本指令.
Python 环境搭建 基于Anaconda和VSCode.
GPU实验上机介绍 国家高性能计算中心(合肥).
Chinese Virtual Observatory
杨振伟 清华大学 第一讲:Linux环境下编程(1)
第四章 UNIX文件系统.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
劉庠宏、林合治編著 國立高雄大學應用數學系 2005年3月1日
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
JUDDI安装手册.
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

河南理工大学HPC集群使用培训 Henan Polytechnic University 现代教育技术中心 高性能计算平台

目录 1 Click to add Title 2 集群概览 如何使用 3 实例

机群概况

机群拓扑图 校园网/Internet Mac/Windows/Linux-Client 千兆管理网 千兆计算网 56GB IB网 终端访问控制、作业提交 56GB IB网 千兆管理网 Mac/Windows/Linux-Client 旧机群1各计算节点 IO节点 千兆交换机 56GB IB交换机 存储 100GB IB网 100GB IB交换机 元数据访问 数据访问 HA 分布式存储 元数据服务器A 元数据服务器B 对象数据服务器B 对象数据服务器A 对象数据服务器C 管理节点 高密度计算节点 异构节点 FC 旧机群2各计算节点 校园网/Internet 千兆计算网 千兆交换机

机柜摆放图

主机名与IP地址 mgr外网访问IP为:122.207.187.40 队列划分情况如下: a: node51-node80 b: node87 e: node81-node86( 无IB)

共享存储 说明: 原来的管理节点node100单纯用作NFS服务器,不再作管理节点

目录 1 Click to add Title 2 集群概览 如何使用 3 实例

操作系统-linux介绍 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程序和网络协议。它支持32位和64位硬件。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

登录-ssh协议介绍 SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。 SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。 SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。SSH在正确使用时可弥补网络中的漏洞。 SSH客户端适用于多种平台。几乎所有UNIX平台—包括HP-UX、Linux、AIX、Solaris、Digital UNIX、Irix,以及其他平台,都可运行SSH。

登录-linux&mac用户 直接使用ssh协议 SSH 用户名@122.207.187.40 或者 SSH 122.207.187.40 -l 用户名 然后输入密码即可。

登录-windows用户 需要使用一些远程连接linux系统的辅助工具,比如SSH Secure Shell Client、XManager(收费,其中包含Xshell(免费) 和XFTP)、Putty等工具。 SSH Secure Shell Client有的时候可能会出现乱码问题,Xshell更好一些。

登录-windows用户(Xshell篇)

登录-windows用户(Xshell篇)

登录-windows用户(Xshell篇)

登录-windows用户(Xshell篇)

登录-windows用户(Xshell篇)

登录-windows用户( SSH Secure Shell 篇)

登录-windows用户( SSH Secure Shell 篇)

登录-windows用户( SSH Secure Shell 篇)

文件传输-linux&mac用户 使用SCP命令即可从本地服务器复制到远程服务器: (1) 复制文件: 命令格式: (1) 复制文件:   命令格式:   scp local_file remote_username@remote_ip:remote_folder   或者   scp local_file remote_username@remote_ip:remote_file   scp local_file remote_ip:remote_folder   scp local_file remote_ip:remote_file   第1,2个指定了用户名,命令执行后需要输入用户密码,第1个仅指定了远程的目录,文件名字不变,第2个指定了文件名   第3,4个没有指定用户名,命令执行后需要输入用户名和密码,第3个仅指定了远程的目录,文件名字不变,第4个指定了文件名   

文件传输-linux&mac用户 使用SCP命令即可从本地服务器复制到远程服务器: (2) 复制目录: 命令格式: (2) 复制目录:    命令格式:   scp -r local_folder remote_username@remote_ip:remote_folder   或者   scp -r local_folder remote_ip:remote_folder   第1个指定了用户名,命令执行后需要输入用户密码;   第2个没有指定用户名,命令执行后需要输入用户名和密码;

文件传输-windows用户 Windows用户可以用SSH Secure Shell Client,winscp等软件实现文件的上传下载

文件传输-windows用户

Linux基本命令 -cd 一、Linux cd命令语法 cd [dirName] dirName:要切换的目标目录。 跳入test目录: [root@/root]#cd testDir/ 跳至上层目录 [root@/root/testDir]#cd .. 跳至上上层目录 [root@/root/testDir]#cd ../../ 跳入用户主目录 [root@/root/testDir]#cd ~/ 使用绝对路径 [root@/root]#cd /public3/home 跳入上次使用目录 [root@/root]#cd -

Linux基本命令 -ls 一、Linux ls命令语法 ls [选项] [参数] ls用来显示目标列表 二、Linux ls命令实例 显示当前目录下非隐藏文件与目录: [root@/root]#ls 显示当前目录下包括隐藏文件在内的所有文件列表[root@/root/testDir]#ls -a 列出文件和文件夹的详细信息[root@/root/testDir]#ls -l 按时间列出文件和文件夹详细信息[root@/root/testDir]#ls -lt 按修改时间列出文件和文件夹详细信息 [root@/root]#ls -ltr

Linux基本命令 –cp 一、Linux cp命令语法 cp [选项] [参数] 将文件file复制到目录/usr/tmp下,并改名为file1: [root@/root]#cp file /usr/tmp/file1 将目录/usr/men下的所有文件及其子目录复制到目录/usr/zh中 [root@/root/testDir]#cp -r /usr/men /usr/zh 此命令中所有参数既可以是绝对路径名,也可以是相对路径名。通常会用到点.或点点..的形式。 所有目标文件指定的目录必须是己经存在的,cp命令不能创建目录。如果没有文件复制的权限,则系统会显示出错信息。

Linux基本命令 –mv 一、Linux mv命令语法 mv [选项] 源文件或目录 目标文件或目录 mv命令用来移动文件及目录或者重命名文件及目录,cp命令与mv命令在很多功能上都非常相似,但是又具有很大的区别,其中最大的区别在于cp命令的使用会保留源文件和目录,而mv命令则会将源文件或者目录删除。 二、Linux mv命令实例 mv file1 file2 将file1重命名为file2 mv file1 dir 将file1移动到dir目录 mv dir1/ dir2 dir2已存在,将dir1移动到dir2目录;dir2不存在则改名

Linux基本命令 一、新建文件夹 mkdir test ----在当前目录下新建一个test文件夹 二、删除文件夹 rmdir test 将test文件夹删除 rmdir -p test/test1 删除test1,如果test为空,一并删除 三、查看当前目录 pwd ----显示当前所在目录 四、查看文件内容 cat filename ---显示文件内容 对于长文件,可以用more、less、tail、head等指令。

Linux基本命令 –rm 一、Linux rm命令语法 rm [选项] [参数] rm命令用于删除一个文件或者目录 # rm test.txt rm:是否删除 一般文件 "test.txt"? y # rm homework rm: 无法删除目录"homework": 是一个目录 # rm -r homework rm:是否删除 目录 "homework"? y

Linux基本命令 –vi&vim 所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。 vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。

vi&vim实例 新建一个hpu.txt文件 vim hpu.txt

vi&vim实例 按下 i 进入输入模式(也称为编辑模式),开始编辑文字 在一般模式之中,只要按下 i, o, a 等字符就可以进入输入模式了! 在编辑模式当中,你可以发现在左下角状态栏中会出现 –INSERT- 的字样,那就是可以输入任意字符的提示。 这个时候,键盘上除了 Esc 这个按键之外,其他的按键都可以视作为一般的输入按钮了,所以你可以进行任何的编辑。

vi&vim实例 按下 ESC 按钮回到一般模式 好了,假设我已经按照上面的样式给他编辑完毕了,那么应该要如何退出呢?是的!没错!就是给他按下 Esc 这个按钮即可!马上你就会发现画面左下角的 – INSERT – 不见了! 在一般模式中按下 :wq 储存后离开 vi OK,我们要存档了,存盘并离开的指令很简单,输入 :wq 即可保存离开!

vi&vim实例

作业调度系统

作业调度系统 – PBS简介 PBS(Portable Batch System) 最初由NASA的Ames研究中心开发,设计为一个能满足异构计算网络需要的软件包。它力求提供对批处理的初始化和调度执行的控制,允许作业在不同主机间的路由 PBS的开源版本为OpenPBS,目前已经停止开发 PBS的商业版为PBS Pro,由Altair公司开发和维护 TORQUE ( Tera-scale Open-source Resource and Queue manager )为 OpenPBS的后续开源版本,修正了OpenPBS的很多bug,功能和可扩展性都有很大提高

作业调度系统 – PBS组成 PBS server sched mom cmd

作业调度系统 – 作业提交 执行 调度 排队 提交 准备 准备:编写描述改作业的脚本,包括作业名,需要的资源等。 提交:使用qsub命令将该作业提交给PBS服务器 排队:服务器将该任务排入适当的队列 调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。 执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。 查询和调整:当作业在运行时,用户可以使用qstat进行状态查询。用户发现作业提交错误时,可以使用qdel删除正在运行的作业。 查看结果:使用文本编辑软件vi或者系统命令cat, less等查看输出及错误信息显示。

作业调度系统 – PBS作业提交命令 在PBS系统中,使用 qsub 命令提交作业 PBS作业脚本:应用程序命令 + PBS环境变量

作业调度系统 – 作业提交脚本 本质是一个 shell 脚本 注释以“#”开头 PBS运行时参数,以“#PBS”开头

作业调度系统 – 实例 #!/bin/bash #PBS -N test #PBS -q default #PBS -l nodes=1:ppn=8 #PBS -j oe source /share/scripts/intel.env cd $PBS_O_WORKDIR mpirun /public3/apps/vasp-5.4.1/vasp

作业调度系统 – PBS运行时参数 以下参数在 PBS 脚本和 qsub 命令行中均有效,qsub命令行参数的优先级更高 运 行 参 数 说 明 -a <作业开始运行的时间> 向PBS系统指定作业运行的开始时间。 作业运行时间格式为: [[[[CC]YY]MM]DD]hhmm[.SS] -A <用户名> 使用不同的用户来提交作业,缺省使用当前用户名 -o <标准输出文件的路径> -e <标准错误输出的路径> 该参数指定标准错误输出的位置,缺省的情况下,PBS系统把标准输出和标准错误输出放在用户qsub命令提交作业的目录下。 标准错误输出:<作业名>.o<作业号> 标准错误输出:<作业名>.e<作业号> 路径使用如下格式标准: [<节点名>:]<路径名> -N <作业名> 指定提交的作业名 -q <目标队列> 指定作业提交的目标队列,其中目标队列可以是目标队列、目标节点名或者是目标节点上的队列。如果目标队列是一个路由队列,那么服务器可能把作业路由到新的队列中。如果该参数没有指定,命令qsub会把作业脚本提交到缺省的队列中。 -l <申请资源列表> 该参数指定作业脚本申请的PBS系统资源列表。 申请资源列表使用如下格式: <资源名>[=[<数量>]][,资源名[=[<数量>]], …..] 例如作业希望申请在双路节点上申请5个CPU资源的情况, 则可以在脚本中如下: #PBS –l nodes=2:ppn=2+1:ppn=1

作业调度系统 – PBS环境变量 变 量 名 说 明 登陆SHELL继承来的变量 说 明 登陆SHELL继承来的变量 包括$HOME,$LANG,$LOGNAME,$PATH,$MAIL,$SHELL和$TZ。 $PBS_O_HOST qsub提交的节点名称 $PBS_O_QUEUE qsub提交的作业的最初队列名称 $PBS_O_WORKDIR qsub提交的作业的绝对路径 $PBS_JOBID 作业被PBS系统指定的作业号 $PBS_JOBNAME 用户指定的作业名,可以在作业提交的时候用qsub –N <作业名>指定,或者在PBS脚本中加入#PBS –N <作业名>。 $PBS_NODEFILE PBS系统指定的作业运行的节点名。该变量在并行机和机群中使用。当在PBS脚本中用#PBS –l nodes=2:ppn=2指定程序运行的节点数时,可以使用$PBS_NODEFILE在脚本中引用PBS系统指定的作业运行的节点名。比如: #PBS –l nodes=2:ppn=2 mpirun –np 4 –machinefile $PBS_NODEFILE <程序名> $PBS_QUEUE PBS脚本在执行时的队列名

作业调度系统 – 查询作业状态 作业提交后,会生成一个作业号,如: [test@mgr ~]$ qsub test.pbs 93.mgr 查看集群作业运行状态: [test@mgr ~]$ qstat Job id Name User Time Use S Queue ---------------- ---------------- ---------------- -------- - ----- 93.mgr test.pbs test 0 R default 95.mgr vasp.Hg vasp 0 E default 111.mgr structure amber 0 Q default 作业状态说明: E:退出 Q:排队 H :挂起 R :运行 C:结束 查询某个作业运行状态: qstat 93.mgr (或者 qstat 93) 显示作业运行在哪些节点上: qstat -an 93 显示作业运行详细信息: qstat -f 93

作业调度系统 – 查询节点状态信息 Free 代表节点还有空闲cpu资源,down代表节点down机,excl代表节点繁忙,没有空闲资源

作业调度系统 – 删除作业 [test@mgr ~]$ qstat Job id Name User Time Use S Queue ---------------- ---------------- ---------------- -------- - ----- 93.mgr test.pbs test 0 R default 95.mgr vasp.Hg vasp 0 E default 111.mgr structure amber 0 Q default [test@mgr ~]$ qdel 93 注:普通用户只能删除自己的作业,管理员可以删除所有用户作业

目录 1 Click to add Title 2 集群概览 如何使用 3 实例

Guass软件范例 1.登录集群,这个不再赘述。 2.编写pbs脚本。 脚本内容如下: 其中g09.sh内容如下: 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反 本例中,算例和脚本在一个目录。

Guass软件范例 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回 5.作业完成,查看log 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反

MS软件范例-castep 1.登录集群,这个不再赘述。 2.编写pbs脚本。 脚本内容如下: 其中ms08.sh内容如下: 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反 本例中,在目录下应该有: 3DAtomistic.cell,3DAtomistic.param和一个后缀为.usp的文件。

MS软件范例-castep 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回 5.作业完成,查看log,执行 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反

matlab软件范例 1.登录集群,这个不再赘述。 2.编写.m文件 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反

matlab软件范例 3.编写pbs脚本。 脚本内容如下: 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反

matlab软件范例 3.做完以上操作,提交脚本 4.查看作业状态,执行 正常会返回 1)集群系统设备的开启和关闭需要安装一定的顺序进行,如果不按照合理顺序进行,容易导致集群工作不正常。 2)交换机包括:千兆,万兆,IB,FC交换机 3)存储:如果是磁盘阵列,先开扩展柜(如果有)再开主柜;如果是并行文件系统则先开元数据服务器再开对象存储服务器 4)功能节点:包括管理、登录、文件服务器等 5)计算节点:最后开机,计算节点之间不存在顺序关系 6)关机顺序与开机顺序相反

The end.