Download presentation
Presentation is loading. Please wait.
Published byὈφιοῦχος Δημητρίου Modified 6年之前
1
李恒锐 13519122505 hrli@jhinno.com 北京景行锐创软件有限公司 2017年6月
西北农林科技大学 超算系统现状和调度系统使用 讲解 李恒锐 北京景行锐创软件有限公司 2017年6月
2
超算系统现状 共有节点:127 其中 管理节点:2 编译节点:2(node119, node124) Smp大内存节点:2(node110,node111:56核,2T内存) 256G内存节点:8(node124~node131) 128G内存节点:44(node50~node119) 64G内存节点:71(node1~node49, node86~node120) GPU计算节点:1(node109:K80 GPU卡*1) © 2018年12月 北京景行锐创软件有限公司 版权所有
3
常用队列与节点关系(一) 在超算运行环境中,队列与计算资源是对应关系
在当前的超算环境中,部分节点作为特点课题的包机使用,除此以外,开放的常用公共队列与公共资源主要有: Normal:nodegroup(node86~node105,node46~node49)(特点:内存64G内的作业) Short:nodegroup(node86~node105,node46~node49)(特点:快速调度,执行时间限制在15分钟) Commonpara:nodegroup(node86~node105,node46~node49)(特点:加载Intel MPI环境,可以在命令中处理mpi并行逻辑) Matlab:nodegroup(node86~node105,node46~node49)(特点:matlab2014算例) Adina: nodegroup(node86~node105,node46~node49)(特点:adina91算例) Nodequeue:nodegroup(node86~node105,node46~node49)(特点:目前等同于normal) © 2018年12月 北京景行锐创软件有限公司 版权所有
4
常用队列与节点关系(二) small:small(node106)(特点:执行时间限制在2个小时) smpqueue:smpgroup(node110,node111)(特点:超过256G的大内存作业) denovo:denovo(node120)(特点:denovo作业) gpuqueue:gpugroup(node109)(特点:gpu应用作业) paraqueue:nodegroup(node86~node105,node46~node49)(特点:使用mpirun进行并行计算) blastx:nodegroup(node86~node105,node46~node49)(特点:运行blast2.3.0作业) Gaussian:nodegroup(node86~node105,node46~node49)(特点:运行gaussian09作业) mem128queue:mem128group (node125~node131)(特点:内存在128G内的作业) © 2018年12月 北京景行锐创软件有限公司 版权所有
5
队列与资源常用命令 jqueues:查看所有队列列表; jqueues –l 队列名:查看具体某个队列的配置信息
QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP normal Open:Active commonpara Open:Active matlab Open:Active adina Open:Active nodequeue Open:Active …… jqueues –l 队列名:查看具体某个队列的配置信息 jqueues -l paraqueue QUEUE: paraqueue -- No description provided. USERS: all users HOSTS: nodegroup+7 PRE_EXEC: /stor9000/apps/jhinno/unischeduler/pre_exec/pre_exec.sh JOB_STARTER: /stor9000/apps/jhinno/unischeduler/jobstarter/paraqueue_starter jhosts 机器(机器组名):查看队列相关的机器组的情况 jhosts nodegroup HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV node closed node closed © 2018年12月 北京景行锐创软件有限公司 版权所有
6
编译与提交节点 编译与提交节点:node119,node124 编译环境:
gcc 4.8.5 Glibc:2.17 Intel编译器:2016 (/stor9000/intel/compilers_and_libraries_ /) Node124:编译环境等同于计算节点,编译完成后可直接在计算节点运行 gcc 4.4.7 Glibc:2.12 © 2018年12月 北京景行锐创软件有限公司 版权所有
7
作业提交与调度 调度的原理:在共享的资源集群中,通过一定的规则为用户分配相应的资源。
© 2018年12月 北京景行锐创软件有限公司 版权所有
8
调度系统环境变量加载 调度系统环境变量包含调度系统命令执行所需要的环境信息,在使用时要预先加载,加载方式为:
. /stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler 或 source /stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler 建议: 写到个人家目录下的.bashrc文件中,自动加载 export MPICH_PATH=/stor9000/intel/impi/ export INC_MPI=$MPICH_PATH/include64 export LIB_MPI=$MPICH_PATH/lib64 export CC=mpiicc export F90=mpiifort export FC=ifort export F77=mpiifort export USER_FC=mpiifort export USER_CC=mpiicc export MPIF90=mpiifort source /stor9000/intel/impi/ /bin64/mpivars.sh source /stor9000/intel/compilers_and_libraries/linux/bin/compilervars.sh intel64 © 2018年12月 北京景行锐创软件有限公司 版权所有
9
作业提交命令 作业提交基本命令:jsub 作业提交命令格式:
jsub [-h] [-V] [-x] [-H] [-r] [-N] [-B] [-I | -K | -Ip | -Is] [-L login_shell] [-c cpu_limit[/host_spec]] [-F file_limit] [-W run_limit[/host_spec]] [-k chkpnt_dir [chkpnt_period] [method=chkpnt_dir]] [-P project_name] [-q queue_name ...] [-R res_req] [-m "host_name[+[pref_level]] | host_group[+[pref_level]]..."] [-n min_processors[,max_processors]] [-J job_name] [-b begin_time] [-t term_time] [-u mail_user] [-i in_file | -is in_file] [-o out_file] [-e err_file] [-M mem_limit] [-D data_limit] [-S stack_limit] [[-f "lfile op [rfile]"] ...] [-w depend_cond] [-E "pre_exec_command [argument ...]"] [-Zs] [-sp job_priority] [command [argument ...]] [-a additional_esub_information] [-vm win7|win2008|winxp] [-cwd current_working_directory] [-gpgpu [gpures=]num] © 2018年12月 北京景行锐创软件有限公司 版权所有
10
常用作业提交命令格式 jsub –J job_name –n cpu_number –q queue_name –o output_file“作业执行命令、参数或脚本” 注意: (1)作业提交所在的目录即为作业执行的目录,因此相对路径均需要以当前目录为基础; (2)如果提交格式为脚本,脚本中命令或执行文件要写为绝对路径。 参数含义: -J job_name:指定作业名(可不设置) -n cpu_number:指定作业运行所需要的cpu资源数(不设置默认为1) -q queue_name:指定作业提交的队列资源(不设置默认为normal队列) -o output_file:指定作业运行过程中输出信息保存的文件名,路径默认为作业提交路径(不设置则不输出过程信息) “作业执行的命令、参数或脚本”:既可以直接运行命令,也可以根据作业的需要编写包含复杂逻辑的脚本 © 2018年12月 北京景行锐创软件有限公司 版权所有
11
作业提交举例 jsub –n 12 –q paraqueue –o output.log “./Gelbvieh_Tibetan sh” © 2018年12月 北京景行锐创软件有限公司 版权所有
12
常见作业状态说明 PEND:作业等待 PSUSP: 作业被系统挂起 USUSP:作业被用户或用户策略挂起 RUN:作业运行中 DONE:作业正常结束 EXIT:作业非正常结束 UNKWN:作业状态丢失 © 2018年12月 北京景行锐创软件有限公司 版权所有
13
作业信息查询 查询作业命令:jjobs 查询作业运行详细信息:jjobs –l 作业号 jjobs -l xxxxx
Job <xxxxx>, Job Name <Gelbvieh_Tibetan >, User <yyyyyy>, Proje ct <default>, Status <RUN>, Queue <mem128queue>, Command < ./Gelbvieh_Tibetan sh> Tue May 16 09:17:32: Submitted from host <node119>, CWD <$HOME/cattle/introgres sion/Sstar/Gelbvieh_Tibetan/SimulationData/simple/with_bot tleneck>, Output File <Gelbvieh_Tibetan o>, Err or File <Gelbvieh_Tibetan e>, 2 Processors Requ ested, Requested Resources <span[hosts=1]>; … Tue May 16 09:17:32: Started on 2 Hosts/Processors <2*node130>, Execution Home </stor9000/apps/users/NWSUAF/yyyyyy>, Execution CWD </ stor9000/apps/users/NWSUAF/yyyyyyy/cattle/introgression /Sstar/Gelbvieh_Tibetan/SimulationData/simple/with_bottlen eck>; Thu Jun 8 11:58:53: Resource usage collected. The CPU time used is seconds. MEM: 1920 Mbytes; SWAP: Mbytes PGID: 3269; PIDs: © 2018年12月 北京景行锐创软件有限公司 版权所有
14
作业等待原因查询 查询等待作业命令:jjobs –lp 作业号 jjobs -lp xxxx
Job <xxxxx>, User <yyyyyy>, Project <default>, Status <PEND>, Queue <para queue>, Command <./work_00044.sh> Thu Jun 8 10:17:51: Submitted from host <node119>, CWD <$HOME/annotation/DV/ge ne_finding/Denovo/Augustus/DV.k79.scaf.sspace.final.scaffo lds.fasta.masked.ag.sh qsub>, Output File <output.txt>; PENDING REASONS: Job slot limit reached: node86, node87, node88, node89, node90, node91, node92 , node93, node94, node95, node96, node97, node98, node99, node100, node101, node102, node103, node104, node105, node 46, node47, node48, node49, node113, node114, node115, nod e116, node117, node118; SCHEDULING PARAMETERS: r15s r1m r15m ut pg io ls it tmp swp mem loadSched loadStop cpuspeed loadSched loadStop © 2018年12月 北京景行锐创软件有限公司 版权所有
15
作业管理命令 终止作业命令: jctrl kill 作业号 历史作业命令:jhist 或 jhist –l 作业号 PSUSP和USUSP状态作业恢复:jctrl resume 作业号 © 2018年12月 北京景行锐创软件有限公司 版权所有
16
调度系统常用命令及常见问题解析 查询全节点状态:jhosts 查询存储空间状态:df –h
需要mpi并行的作业,执行命令不要放到脚本中,如果命令格式和参数较复杂,用“”包裹命令提交 如果提交的作业执行直接报错,首先检查命令是否具有可执行权限。可执行权限可以用命令:chmod 755 命令(或脚本)设置 如果实时编译的程序需要在计算节点执行,请到node124上编译 © 2018年12月 北京景行锐创软件有限公司 版权所有
17
问题与解答 © 2018年12月 北京景行锐创软件有限公司 版权所有
18
谢谢!
Similar presentations