李恒锐 13519122505 hrli@jhinno.com 北京景行锐创软件有限公司 2017年6月 西北农林科技大学 超算系统现状和调度系统使用 讲解 李恒锐 13519122505 hrli@jhinno.com 北京景行锐创软件有限公司 2017年6月.

Slides:



Advertisements
Similar presentations
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
Advertisements

电话: XXXXX 主讲: XXXXX 任务五 组织旅游线路. 本节任务:设计一条旅游线路 休闲度假天堂游 早烟台集合,乘车赴蓬莱,游览人间仙境 — 蓬莱阁风景区 ( 1.5 小时)、水城、古船馆、八仙群雕。 第一天 然后自由活动或自费游览:八仙渡海口风景区( 60 元自 理)海洋极地世界( 120.
盈泰盛世精选 - 华泰并购投资基金 宝蓄财富 - 产品部. 产品基本要素 产品名称盈泰盛世精选华泰并购投资基金 管理人北京恒宇天泽投资管理有限公司 托管人国信证券股份有限公司 发行规模 1.2 亿元,以实际募集规模为准 人数限制 200 人上限 投资标的本基金委托将主要投向于华泰瑞联二期并 购基金中心(有限合合)(以企业登记的.
进 程. “ 程序 ” 和 “ 进程 ” 进程是 OS 对 CPU 执行的程序的运行过程的一种抽象。进程有自 己的生命周期,它由于任务的启动而创建,随着任务的完成(或 终止)而消亡,它所占用的资源也随着进程的终止而释放。 Linux 内核中通常把进程称为任务,每个进程主要通过一个称为进程描 述符(
图说 毕业生档案 学生工作部 2016 年 5 月. 毕业生档案 毕业前 文字记载 书面材料 家庭情况政治思想 身体状况学习成绩 高校毕业前文字记载的书面材料 用人单位选拔、聘用毕业生的重 要人事依据 工作后人事档案的基础和雏形 什么是毕业生档案?
港股通首单分拆合并业务技术培训. 恒发洋参 4 : 1 合并股份 根据恒发洋参控股有限公司(恒发洋参)之股份合并建议,每 4 股每股面值 港元之现有股份( “ 现有股份 ” )将合并为 1 股每股面值 港元之股份 (“ 合并股份 ”) 。合并股份的开始买卖日期预计为 2016.
平面构成 第六章 平面构成形式与法则 — 破规与变异. 第七章 平面构成形式与法则 — 破规与变异 破规与变异构成的形式、有下列四类: 一、特异构成 特异构成。其表现特征是,在普遍相同性质的事物 当中,有个别异质性的事物,便会立即显现出来。
南宁市中小学生学籍信息化管理系统 用户培训手册
辅导老师:隋秀峰 2008年10月22日 Lab3:MPI Programming 辅导老师:隋秀峰 2008年10月22日.
南京市中等职业学校 2013级人才培养方案 编制说明.
明清文人集中的寓言 pg359-371 韓佩思 中碩一
武术理论课教案 长 拳 SunJianHua.
机群性能分析软件 Paramon & Paratune
研商「99年宜蘭縣相關單位同步滅鼠工作」執行事宜
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
机电设备概论 安全管理概述 XXXXX.
Roger Zhang (张杰) Intel IT 数据中心专家 2011年10月
医师变更执业注册申请审核表 填写说明 医务部.
做好就业与自主创业的准备.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
《女性消费行为与研究方法》 广东外语外贸大学 杨晓燕教授.
第七章 操作系统接口 7.1 联机用户接口 7.2 Shell命令语言 7.3 系统调用 7.4 UNIX系统调用 7.5 图形用户接口.
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
技术支持部 张新凤( ) 并行机群系统安装、使用和管理 技术支持部 张新凤( )
教育部補助計畫經費動支應行注意事項 報告單位:主 計 室 104年10月.
几种常见应用文体示例.
Network Storage and System Virtualization Technology
第2章:企業組織 張緯良 世新大學資訊管理系.
农事学实践教程 主讲:XXXX 作物繁种技术.
Profibus Training Course
第8章 机床操作 主讲:臧红彬 博士.
定风波.
第九章 长期资产及摊销 2017/3/21.
UNIX系統與資料庫安裝 Why UNIX 常用的工具程式介紹 資料庫的安裝.
权力的行使:需要监督 北京市京源学校 冯 悦.
关于对新型农村合作医疗制度实行现状的调查
性能测试培训 在组设置中可使用此模板作为演示培训材料的起始文件。 节
第二章 信息的获取 2.1 获取信息的过程与方法.
3.1主板的组成 3.2主板分类 3.3主板的选购 3.4主流主板芯片组技术参数
台灣大學計算機及資訊網路中心 教學研究組 張傑生
高效能運算服務 (High Performance Computing) 建置之經驗分享
并行计算实验上机 国家高性能计算中心(合肥).
英特尔 IT 企业级计算 王阳 英特尔工程计算部信息技术经理 2011年10月 Intel Public 1.
第二章 行程管理 朱肇明 資管系 講師 大華技術學院.
作 業 系 統 第三組 楊育翰 顏瑞霖.
Hadoop平台使用 计算中心
Operating System Concepts 作業系統原理 CHAPTER 2 系統結構 (System Structures)
第十章 应用程序测试.
Kinco 智能伺服编程软件基础
从TDW-Hive到TDW-SparkSQL
曙光集群简明使用手册 技术支持中心.
NS2 – TCP/IP Simulation How-Wei Wu.
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
第二章 UNIX系统安装与常用命令.
第六章 shell 程序调试 一. 程序执行状态跟踪 程序: -n 读取命令, 但不执行. 主要用于跟踪程序流程是
教育部補助計畫經費動支應行注意事項 報告單位:主 計 室 107年11月6日.
杨振伟 清华大学 第一讲:Linux环境下编程(1)
Chapter 11 使用者資料包通訊協定.
實務操作練習題.
美麗的西子湖.
程序管理 蘇偉順助教.
28th Weekly Operation Report on DIRAC Distributed Computing
算法基础 上机实验 4 学 期: 2017 (秋).
程序管理 蘇偉順助教.
2015年雪佛兰经销商7-8月夏季市场活动激励政策 执行手册及模板
提昇教師專業會議(華人社區) 「教師專業行為表現」專題討論 學生和家長眼中的教師專業行為 日期:2005年10月29日 地點:香港教育學院C-Lp-01室 主講 :香港教育工作者聯會 韓湛恩老師.
杨振伟 清华大学 第一讲:Linux环境下编程(1)
劉庠宏、林合治編著 國立高雄大學應用數學系 2005年3月1日
Presentation transcript:

李恒锐 13519122505 hrli@jhinno.com 北京景行锐创软件有限公司 2017年6月 西北农林科技大学 超算系统现状和调度系统使用 讲解 李恒锐 13519122505 hrli@jhinno.com 北京景行锐创软件有限公司 2017年6月

超算系统现状 共有节点:127 其中 管理节点:2 编译节点:2(node119, node124) Smp大内存节点:2(node110,node111:56核,2T内存) 256G内存节点:8(node124~node131) 128G内存节点:44(node50~node119) 64G内存节点:71(node1~node49, node86~node120) GPU计算节点:1(node109:K80 GPU卡*1) © 2018年12月 北京景行锐创软件有限公司 版权所有

常用队列与节点关系(一) 在超算运行环境中,队列与计算资源是对应关系 在当前的超算环境中,部分节点作为特点课题的包机使用,除此以外,开放的常用公共队列与公共资源主要有: Normal:nodegroup(node86~node105,node46~node49)(特点:内存64G内的作业) Short:nodegroup(node86~node105,node46~node49)(特点:快速调度,执行时间限制在15分钟) Commonpara:nodegroup(node86~node105,node46~node49)(特点:加载Intel MPI环境,可以在命令中处理mpi并行逻辑) Matlab:nodegroup(node86~node105,node46~node49)(特点:matlab2014算例) Adina: nodegroup(node86~node105,node46~node49)(特点:adina91算例) Nodequeue:nodegroup(node86~node105,node46~node49)(特点:目前等同于normal) © 2018年12月 北京景行锐创软件有限公司 版权所有

常用队列与节点关系(二) small:small(node106)(特点:执行时间限制在2个小时) smpqueue:smpgroup(node110,node111)(特点:超过256G的大内存作业) denovo:denovo(node120)(特点:denovo作业) gpuqueue:gpugroup(node109)(特点:gpu应用作业) paraqueue:nodegroup(node86~node105,node46~node49)(特点:使用mpirun进行并行计算) blastx:nodegroup(node86~node105,node46~node49)(特点:运行blast2.3.0作业) Gaussian:nodegroup(node86~node105,node46~node49)(特点:运行gaussian09作业) mem128queue:mem128group (node125~node131)(特点:内存在128G内的作业) © 2018年12月 北京景行锐创软件有限公司 版权所有

队列与资源常用命令 jqueues:查看所有队列列表; jqueues –l 队列名:查看具体某个队列的配置信息 QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP normal 40 Open:Active - - - - 94 2 92 0 commonpara 40 Open:Active - - - - 0 0 0 0 matlab 40 Open:Active - - - - 0 0 0 0 adina 40 Open:Active - - - - 0 0 0 0 nodequeue 40 Open:Active - - - - 162 0 162 0 …… jqueues –l 队列名:查看具体某个队列的配置信息 jqueues -l paraqueue QUEUE: paraqueue -- No description provided. USERS: all users HOSTS: nodegroup+7 PRE_EXEC: /stor9000/apps/jhinno/unischeduler/pre_exec/pre_exec.sh JOB_STARTER: /stor9000/apps/jhinno/unischeduler/jobstarter/paraqueue_starter jhosts 机器(机器组名):查看队列相关的机器组的情况 jhosts nodegroup HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV node100 closed - 24 24 24 0 0 0 node101 closed - 24 24 24 0 0 0 © 2018年12月 北京景行锐创软件有限公司 版权所有

编译与提交节点 编译与提交节点:node119,node124 编译环境: gcc 4.8.5 Glibc:2.17 Intel编译器:2016 (/stor9000/intel/compilers_and_libraries_2016.2.181/) Node124:编译环境等同于计算节点,编译完成后可直接在计算节点运行 gcc 4.4.7 Glibc:2.12 © 2018年12月 北京景行锐创软件有限公司 版权所有

作业提交与调度 调度的原理:在共享的资源集群中,通过一定的规则为用户分配相应的资源。 © 2018年12月 北京景行锐创软件有限公司 版权所有

调度系统环境变量加载 调度系统环境变量包含调度系统命令执行所需要的环境信息,在使用时要预先加载,加载方式为: . /stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler 或 source /stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler 建议: 写到个人家目录下的.bashrc文件中,自动加载 export MPICH_PATH=/stor9000/intel/impi/5.1.3.181 export INC_MPI=$MPICH_PATH/include64 export LIB_MPI=$MPICH_PATH/lib64 export CC=mpiicc export F90=mpiifort export FC=ifort export F77=mpiifort export USER_FC=mpiifort export USER_CC=mpiicc export MPIF90=mpiifort source /stor9000/intel/impi/5.1.3.181/bin64/mpivars.sh source /stor9000/intel/compilers_and_libraries/linux/bin/compilervars.sh intel64 © 2018年12月 北京景行锐创软件有限公司 版权所有

作业提交命令 作业提交基本命令:jsub 作业提交命令格式: jsub [-h] [-V] [-x] [-H] [-r] [-N] [-B] [-I | -K | -Ip | -Is] [-L login_shell] [-c cpu_limit[/host_spec]] [-F file_limit] [-W run_limit[/host_spec]] [-k chkpnt_dir [chkpnt_period] [method=chkpnt_dir]] [-P project_name] [-q queue_name ...] [-R res_req] [-m "host_name[+[pref_level]] | host_group[+[pref_level]]..."] [-n min_processors[,max_processors]] [-J job_name] [-b begin_time] [-t term_time] [-u mail_user] [-i in_file | -is in_file] [-o out_file] [-e err_file] [-M mem_limit] [-D data_limit] [-S stack_limit] [[-f "lfile op [rfile]"] ...] [-w depend_cond] [-E "pre_exec_command [argument ...]"] [-Zs] [-sp job_priority] [command [argument ...]] [-a additional_esub_information] [-vm win7|win2008|winxp] [-cwd current_working_directory] [-gpgpu [gpures=]num] © 2018年12月 北京景行锐创软件有限公司 版权所有

常用作业提交命令格式 jsub –J job_name –n cpu_number –q queue_name –o output_file“作业执行命令、参数或脚本” 注意: (1)作业提交所在的目录即为作业执行的目录,因此相对路径均需要以当前目录为基础; (2)如果提交格式为脚本,脚本中命令或执行文件要写为绝对路径。 参数含义: -J job_name:指定作业名(可不设置) -n cpu_number:指定作业运行所需要的cpu资源数(不设置默认为1) -q queue_name:指定作业提交的队列资源(不设置默认为normal队列) -o output_file:指定作业运行过程中输出信息保存的文件名,路径默认为作业提交路径(不设置则不输出过程信息) “作业执行的命令、参数或脚本”:既可以直接运行命令,也可以根据作业的需要编写包含复杂逻辑的脚本 © 2018年12月 北京景行锐创软件有限公司 版权所有

作业提交举例 jsub –n 12 –q paraqueue –o output.log “./Gelbvieh_Tibetan.80.5060000.sh” © 2018年12月 北京景行锐创软件有限公司 版权所有

常见作业状态说明 PEND:作业等待 PSUSP: 作业被系统挂起 USUSP:作业被用户或用户策略挂起 RUN:作业运行中 DONE:作业正常结束 EXIT:作业非正常结束 UNKWN:作业状态丢失 © 2018年12月 北京景行锐创软件有限公司 版权所有

作业信息查询 查询作业命令:jjobs 查询作业运行详细信息:jjobs –l 作业号 jjobs -l xxxxx Job <xxxxx>, Job Name <Gelbvieh_Tibetan.80.5060000>, User <yyyyyy>, Proje ct <default>, Status <RUN>, Queue <mem128queue>, Command < ./Gelbvieh_Tibetan.80.5060000.sh> Tue May 16 09:17:32: Submitted from host <node119>, CWD <$HOME/cattle/introgres sion/Sstar/Gelbvieh_Tibetan/SimulationData/simple/with_bot tleneck>, Output File <Gelbvieh_Tibetan.80.5060000.o>, Err or File <Gelbvieh_Tibetan.80.5060000.e>, 2 Processors Requ ested, Requested Resources <span[hosts=1]>; … Tue May 16 09:17:32: Started on 2 Hosts/Processors <2*node130>, Execution Home </stor9000/apps/users/NWSUAF/yyyyyy>, Execution CWD </ stor9000/apps/users/NWSUAF/yyyyyyy/cattle/introgression /Sstar/Gelbvieh_Tibetan/SimulationData/simple/with_bottlen eck>; Thu Jun 8 11:58:53: Resource usage collected. The CPU time used is 2206876 seconds. MEM: 1920 Mbytes; SWAP: 15047 Mbytes PGID: 3269; PIDs: 3269 3341 3344 3460 3461 3462 © 2018年12月 北京景行锐创软件有限公司 版权所有

作业等待原因查询 查询等待作业命令:jjobs –lp 作业号 jjobs -lp xxxx Job <xxxxx>, User <yyyyyy>, Project <default>, Status <PEND>, Queue <para queue>, Command <./work_00044.sh> Thu Jun 8 10:17:51: Submitted from host <node119>, CWD <$HOME/annotation/DV/ge ne_finding/Denovo/Augustus/DV.k79.scaf.sspace.final.scaffo lds.fasta.masked.ag.sh.12163.qsub>, Output File <output.txt>; PENDING REASONS: Job slot limit reached: node86, node87, node88, node89, node90, node91, node92 , node93, node94, node95, node96, node97, node98, node99, node100, node101, node102, node103, node104, node105, node 46, node47, node48, node49, node113, node114, node115, nod e116, node117, node118; SCHEDULING PARAMETERS: r15s r1m r15m ut pg io ls it tmp swp mem loadSched - - - - - - - - - - - loadStop - - - - - - - - - - - cpuspeed loadSched - loadStop - © 2018年12月 北京景行锐创软件有限公司 版权所有

作业管理命令 终止作业命令: jctrl kill 作业号 历史作业命令:jhist 或 jhist –l 作业号 PSUSP和USUSP状态作业恢复:jctrl resume 作业号 © 2018年12月 北京景行锐创软件有限公司 版权所有

调度系统常用命令及常见问题解析 查询全节点状态:jhosts 查询存储空间状态:df –h 需要mpi并行的作业,执行命令不要放到脚本中,如果命令格式和参数较复杂,用“”包裹命令提交 如果提交的作业执行直接报错,首先检查命令是否具有可执行权限。可执行权限可以用命令:chmod 755 命令(或脚本)设置 如果实时编译的程序需要在计算节点执行,请到node124上编译 © 2018年12月 北京景行锐创软件有限公司 版权所有

问题与解答 © 2018年12月 北京景行锐创软件有限公司 版权所有

谢谢!