Download presentation
Presentation is loading. Please wait.
1
北京师范大学并行计算实验室 作业调度
2
主要内容 一、作业提交流程 二、WEB作业提交及管理 三、命令行作业提交及管理 四、常见问题及错误
3
作业提交流程 作业提交一览 Ssh至登录节点(202.112.88.40) 新建工作目录(mkdir test)
进入工作目录(cd test 编辑作业提交脚本(vi) 提交作业脚本(qsub) 查看作业运行状态(qstat)
4
WEB作业提交-基本属性 1. 作业提交基本属性:
5
WEB作业提交-基本属性 作业提交基本属性介绍 作业名称 自定义作业名称,用于区分该作业与其他作业(必填,英文) 2. 队列
2. 队列 选择作业所要提交的队列(必选) 资源(必填,串行作业为1:1) 作业运行所需要的资源。以节点数:核数形式列出 如2:4,即需要2个节点,每个节点4个核心 注意:节点数不要超过5,每节点核心不要超过10 工作目录 指定作业运行的工作目录。作业运行产生的中间数据将存放在此目录 作业提交脚本(必填) 指定作业提交脚本(也可以在线编辑)
6
WEB作业提交-高级属性 1. 作业提交高级属性
7
删除线表示不常用 作业提交高级属性介绍 选择网络 集群中多套网络时,选择作业运行所在网络(IB,千兆) 2. 正确输出
2. 正确输出 作业的正确输出文件路径(默认输出在工作目录下) 错误输出 作业的错误输出文件路径(默认输出在工作目录下) 报警 可以选择是否要在作业开始、结束或发生故障时报警 检查点 指定作业是否设置检查点,以及作业添加检查点时间间隔(只支持串行作业)
8
WEB作业管理 作业列表:当前登录用户所有已提交作业
9
删除线表示不常用 作业管理操作说明 运行 使作业无需排队,直接运行(需要管理员权限) 2. 停止、释放 使作业暂时停止、恢复作业运行 删除
2. 停止、释放 使作业暂时停止、恢复作业运行 删除 删除一个作业 保存检查点 手动保存当前时刻作业检查点 获取检查点、从检查点恢复 获取所有已保存检查点,可以从中选择一个检查点恢复作业运行
10
WEB作业管理 作业管理右键操作
11
WEB作业管理 查看作业详细信息
12
WEB作业管理 查看作业输出
13
WEB作业管理 查看作业调度日志
14
命令行作业提交准备 一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置:
一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置: 1:”cp /opt/ssh/ssh-configure/hostfile .” 2:” /opt/ssh/ssh-configure/step1.exp username” 3:” /opt/ssh/ssh-configure/step2.exp username password” 二、服务器集群节点信息: 刀片节点 cu01~cu05 胖节点:fat GPU节点:gpu 管理节点:mu01(禁止在管理节点上运行自己的任务)
15
命令行作业提交 qsub xx.sh -l nodes=2:ppn=4 需要2个节点,每个节点上4核 -e path 错误信息输出的路径
-o path 正常输出信息输出的路径 -q batch 作业提交队列(目前有batch和gpu两个队列)
16
作业提交 串行脚本编写 -N 作业名 -l nodes=2:ppn=4 需要2个节点,每个节点4个核
-l nodes=cu01 指定具体计算节点cu01 -l nodes=cu01+cu02 指定具体节点cu01,cu02 注意:提交作业时,1个作业不要占用集群所有资源。如当前6个节点每个节点12个核,不要使用nodes= 作业脚本xx.sh编写如下: #PBS –N job_name #PBS –l nodes=2:ppn=4 #PBS –P zhangsan sleep 1000
17
作业提交 并行脚本编写(拷贝下面粗体脚本内容,存储为xx.sh) #/bin/bash
EXEC=“/home/【你的用户名】/【可执行文件】" ARGS="" echo $PBS_NODEFILE cat $PBS_NODEFILE > ~/nodefile NP=`cat $PBS_NODEFILE | wc -l` /opt/intel/impi/ /intel64/bin/mpirun -hostfile ~/nodefile -np $NP $EXEC $ARGS cat ~/nodefile 注意:一般情况只要复制上面的脚本,修改红色部分就可以了。不要用中文
18
作业提交 查询 qstat 无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息
无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息 -f jobid 查询指定作业的详细信息
19
作业管理 查看作业输出 qpeek jobid
20
作业管理 删除作业(自己提交的任务) qdel jobid
21
作业管理 查看所有节点信息 pbsnodes
Similar presentations