北京师范大学并行计算实验室 作业调度.

Slides:



Advertisements
Similar presentations
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
Advertisements

联系电话: 联 系 人:李爱玲 中国人文社会科学文献(CASHL)传递 联系电话: 联 系 人:李爱玲
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
七堵調車場與台鐵平溪線.
在线考试系统手机端使用说明 技术支持:南京庞培软件科技有限公司.
99年成語200題庫(21-40).
Linux并行计算平台搭建及应用 王彦棡 2010年5月.
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
第八章 网络课程的设计与开发.
作业调度系统 曙光信息产业(北京)有限公司.
互联网时代班主任的挑战 万玮 2014年9月20日.
课程中心 课程中心培训方案 上海泰泽信息技术有限公司
宁波材料所高性能计算集群普通用户培训 曙光公司.
在PHP和MYSQL中实现完美的中文显示
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Linux 切换、 创建和删除目录 系统管理 宁波市高校慕课联盟课程
NUIST HPC使用讲座 —— 作业提交 刘建宇
AngularJS -- 使用AngularJS进行开发
鄉村尋根-農具篇.
第二讲 搭建Java Web开发环境 主讲人:孙娜
SOA – Experiment 3: Web Services Composition Challenge
大学计算机基础 典型案例之一 构建FPT服务器.
曙光集群简明使用手册 技术支持中心.
SVN服务器的搭建(Windows) 柳峰
Jul 2014 HEAT部署Hadoop集群
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
曙光信息产业有限公司 技术支持中心 赵崇山 PBS作业调度系统 曙光信息产业有限公司 技术支持中心 赵崇山
PostgreSQL 8.3 安装要点 四川大学计算机学院 段 磊
Windows网络操作系统管理 ——Windows Server 2008 R2.
Windows网络操作系统管理 ——Windows Server 2008 R2.
Hub Web System 主要功能: 1.查询库存(Query Current Storage) 2.创建PL(Create PL) 3.查询、打印PL单(Query & Print PL) 4.查询允交量、在途量 5.修改用户的基本信息(Update Password) 6.查询GR(Query.
2019/1/12 GDP设计协同 超级管理员操作手册 GDP项目组.
作业调度系统常用命令.
VSS使用简介 王树升
任务1-3 使用Dreamweaver创建ASP网页
实习前你需要知道的 PRESENTED BY Yisa.
曙光高性能集群系统用户培训 ——常州大学 曙光江苏分公司 技术支持中心 崔波涛、王亚强 2013年10月16日.
第二章 登录UNIX操作系统.
管理员指南 ——三项基本职责.
河南理工大学HPC集群使用培训 Henan Polytechnic University 现代教育技术中心 高性能计算平台.
简单介绍 用C++实现简单的模板数据结构 ArrayList(数组, 类似std::vector)
電子郵件簡介.
Web安全基础教程
UNIX指令-檔案與目錄操作.
姚金宇 MIT SCHEME 使用说明 姚金宇
SAGE-移动终端授权 ----校外访问SAGE资源 北京办公室 1.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
教育部 财政部 网络教育数字化学习资源中心平台系统 安装与配置
iSIGHT 基本培训 使用 Excel的栅栏问题
國民年金 np97006.
GDP设计协同 项目创建者操作手册 GDP项目组 2019/01/30.
本节内容 文件系统 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
2019/5/10 网络学习空间实务操作.
Touch Github = Touch the World
VRP教程 2011.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
SpringerLink数据库使用说明 上海师范大学图书馆
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Python 环境搭建 基于Anaconda和VSCode.
工业机器人知识要点解析 (ABB机器人) 主讲人:王老师
GPU实验上机介绍 国家高性能计算中心(合肥).
GDP设计协同 项目经理操作手册 GDP项目组 2019/01/30.
国家超级计算长沙中心 用户手册.
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
使用说明书 网址: 贵阳学院智慧实验室管理平台 用户中心 使用说明书 网址:
第四章 UNIX文件系统.
实验六静态路由.
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
JUDDI安装手册.
Presentation transcript:

北京师范大学并行计算实验室 作业调度

主要内容 一、作业提交流程 二、WEB作业提交及管理 三、命令行作业提交及管理 四、常见问题及错误

作业提交流程 作业提交一览 Ssh至登录节点(202.112.88.40) 新建工作目录(mkdir test) 进入工作目录(cd test 编辑作业提交脚本(vi) 提交作业脚本(qsub) 查看作业运行状态(qstat)

WEB作业提交-基本属性 1. 作业提交基本属性:http://202.112.88.40:8080/TSJM

WEB作业提交-基本属性 作业提交基本属性介绍 作业名称 自定义作业名称,用于区分该作业与其他作业(必填,英文) 2. 队列 2. 队列 选择作业所要提交的队列(必选) 资源(必填,串行作业为1:1) 作业运行所需要的资源。以节点数:核数形式列出 如2:4,即需要2个节点,每个节点4个核心 注意:节点数不要超过5,每节点核心不要超过10 工作目录 指定作业运行的工作目录。作业运行产生的中间数据将存放在此目录 作业提交脚本(必填) 指定作业提交脚本(也可以在线编辑)

WEB作业提交-高级属性 1. 作业提交高级属性

删除线表示不常用 作业提交高级属性介绍 选择网络 集群中多套网络时,选择作业运行所在网络(IB,千兆) 2. 正确输出 2. 正确输出 作业的正确输出文件路径(默认输出在工作目录下) 错误输出 作业的错误输出文件路径(默认输出在工作目录下) 报警 可以选择是否要在作业开始、结束或发生故障时报警 检查点 指定作业是否设置检查点,以及作业添加检查点时间间隔(只支持串行作业)

WEB作业管理 作业列表:当前登录用户所有已提交作业

删除线表示不常用 作业管理操作说明 运行 使作业无需排队,直接运行(需要管理员权限) 2. 停止、释放 使作业暂时停止、恢复作业运行 删除 2. 停止、释放 使作业暂时停止、恢复作业运行 删除 删除一个作业 保存检查点 手动保存当前时刻作业检查点 获取检查点、从检查点恢复 获取所有已保存检查点,可以从中选择一个检查点恢复作业运行

WEB作业管理 作业管理右键操作

WEB作业管理 查看作业详细信息

WEB作业管理 查看作业输出

WEB作业管理 查看作业调度日志

命令行作业提交准备 一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置: 一、注意先要申请帐号,获得帐号后,通过远程登录,执行以下操作,完成 无密码访问配置: 1:”cp /opt/ssh/ssh-configure/hostfile .” 2:” /opt/ssh/ssh-configure/step1.exp username” 3:” /opt/ssh/ssh-configure/step2.exp username password” 二、服务器集群节点信息: 刀片节点 cu01~cu05 胖节点:fat GPU节点:gpu 管理节点:mu01(禁止在管理节点上运行自己的任务)

命令行作业提交 qsub xx.sh -l nodes=2:ppn=4 需要2个节点,每个节点上4核 -e path 错误信息输出的路径 -o path 正常输出信息输出的路径 -q batch 作业提交队列(目前有batch和gpu两个队列)

作业提交 串行脚本编写 -N 作业名 -l nodes=2:ppn=4 需要2个节点,每个节点4个核 -l nodes=cu01 指定具体计算节点cu01 -l nodes=cu01+cu02 指定具体节点cu01,cu02 注意:提交作业时,1个作业不要占用集群所有资源。如当前6个节点每个节点12个核,不要使用nodes= 作业脚本xx.sh编写如下: #PBS –N job_name #PBS –l nodes=2:ppn=4 #PBS –P zhangsan sleep 1000

作业提交 并行脚本编写(拷贝下面粗体脚本内容,存储为xx.sh) #/bin/bash EXEC=“/home/【你的用户名】/【可执行文件】" ARGS="" echo $PBS_NODEFILE cat $PBS_NODEFILE > ~/nodefile NP=`cat $PBS_NODEFILE | wc -l` /opt/intel/impi/4.0.3.008/intel64/bin/mpirun -hostfile ~/nodefile -np $NP $EXEC $ARGS cat ~/nodefile 注意:一般情况只要复制上面的脚本,修改红色部分就可以了。不要用中文

作业提交 查询 qstat 无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息 无参数 查询所有作业信息 -B 查询服务器状态 -Q 查询队列状态 -n 查询每个作业的基本信息 -f jobid 查询指定作业的详细信息

作业管理 查看作业输出 qpeek jobid

作业管理 删除作业(自己提交的任务) qdel jobid

作业管理 查看所有节点信息 pbsnodes