北京师范大学并行计算实验室 作业调度
主要内容 一、作业提交流程 二、WEB作业提交及管理 三、命令行作业提交及管理 四、常见问题及错误
作业提交流程 作业提交一览 Ssh至登录节点(202.112.88.40) 新建工作目录(mkdir test) 进入工作目录(cd test 编辑作业提交脚本(vi) 提交作业脚本(qsub) 查看作业运行状态(qstat)
WEB作业提交-基本属性 1. 作业提交基本属性:http://202.112.88.40:8080/TSJM
WEB作业提交-基本属性 作业提交基本属性介绍 作业名称 自定义作业名称,用于区分该作业与其他作业(必填,英文) 2. 队列 2. 队列 选择作业所要提交的队列(必选) 资源(必填,串行作业为1:1) 作业运行所需要的资源。以节点数:核数形式列出 如2:4,即需要2个节点,每个节点4个核心 注意:节点数不要超过5,每节点核心不要超过10 工作目录 指定作业运行的工作目录。作业运行产生的中间数据将存放在此目录 作业提交脚本(必填) 指定作业提交脚本(也可以在线编辑)
WEB作业提交-高级属性 1. 作业提交高级属性
删除线表示不常用 作业提交高级属性介绍 选择网络 集群中多套网络时,选择作业运行所在网络(IB,千兆) 2. 正确输出 2. 正确输出 作业的正确输出文件路径(默认输出在工作目录下) 错误输出 作业的错误输出文件路径(默认输出在工作目录下) 报警 可以选择是否要在作业开始、结束或发生故障时报警 检查点 指定作业是否设置检查点,以及作业添加检查点时间间隔(只支持串行作业)
WEB作业管理 作业列表:当前登录用户所有已提交作业
删除线表示不常用 作业管理操作说明 运行 使作业无需排队,直接运行(需要管理员权限) 2. 停止、释放 使作业暂时停止、恢复作业运行 删除 2. 停止、释放 使作业暂时停止、恢复作业运行 删除 删除一个作业 保存检查点 手动保存当前时刻作业检查点 获取检查点、从检查点恢复 获取所有已保存检查点,可以从中选择一个检查点恢复作业运行
WEB作业管理 作业管理右键操作
WEB作业管理 查看作业详细信息
WEB作业管理 查看作业输出
WEB作业管理 查看作业调度日志
命令行作业提交准备 一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置: 一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置: 1:”cp /opt/ssh/ssh-configure/hostfile .” 2:” /opt/ssh/ssh-configure/step1.exp username” 3:” /opt/ssh/ssh-configure/step2.exp username password” 二、服务器集群节点信息: 刀片节点 cu01~cu05 胖节点:fat GPU节点:gpu 管理节点:mu01(禁止在管理节点上运行自己的任务)
命令行作业提交 qsub xx.sh -l nodes=2:ppn=4 需要2个节点,每个节点上4核 -e path 错误信息输出的路径 -o path 正常输出信息输出的路径 -q batch 作业提交队列(目前有batch和gpu两个队列)
作业提交 串行脚本编写 -N 作业名 -l nodes=2:ppn=4 需要2个节点,每个节点4个核 -l nodes=cu01 指定具体计算节点cu01 -l nodes=cu01+cu02 指定具体节点cu01,cu02 注意:提交作业时,1个作业不要占用集群所有资源。如当前6个节点每个节点12个核,不要使用nodes= 作业脚本xx.sh编写如下: #PBS –N job_name #PBS –l nodes=2:ppn=4 #PBS –P zhangsan sleep 1000
作业提交 并行脚本编写(拷贝下面粗体脚本内容,存储为xx.sh) #/bin/bash EXEC=“/home/【你的用户名】/【可执行文件】" ARGS="" echo $PBS_NODEFILE cat $PBS_NODEFILE > ~/nodefile NP=`cat $PBS_NODEFILE | wc -l` /opt/intel/impi/4.0.3.008/intel64/bin/mpirun -hostfile ~/nodefile -np $NP $EXEC $ARGS cat ~/nodefile 注意:一般情况只要复制上面的脚本,修改红色部分就可以了。不要用中文
作业提交 查询 qstat 无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息 无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息 -f jobid 查询指定作业的详细信息
作业管理 查看作业输出 qpeek jobid
作业管理 删除作业(自己提交的任务) qdel jobid
作业管理 查看所有节点信息 pbsnodes