集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.

Slides:



Advertisements
Similar presentations
迪士尼公主裙衫变化记. 《白雪公主和七个小孩人》 《白雪公主和七个小矮人》,是世界电影史上第一部长动 画片,也是迪士尼的第一部。《白雪公主》不仅为迪斯尼 带来了第一尊奥斯卡小人,更是拯救迪斯尼于水火的贵 人 —— 在经济大萧条的 1937 年的美国,《白雪公主》为迪 斯尼赚到了 850 万美元,这约等于现在的数亿美元!
Advertisements

定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
中秋节 作者:杨露. “ 团圆节 ” “ 秋暮夕月 ” 的习俗 中秋拜月 热爱中秋佳节 每年农历八月十五日,是传统的中秋佳节。 这时是一年秋季的中期,所以被称为中秋。在中 国的农历里,一年分为四季,每季又分为孟、仲、 季三个部分,因而中秋也称仲秋。八月十五的月 亮比其他几个月的满月更圆,更明亮,所以又叫.
1 「外資期貨交易、 綜合帳戶、 法人部位限制放寬」 新制說明. 2 大綱 開放外資以非避險目的從事期貨交易 現行規範 新制實施規範 開放境外外資透過綜合帳戶從事期貨交易 綜合帳戶之意義 綜合帳戶開戶、交易、結算與部位申報相關作 業程序 調整法人部位限制放寬規定 現行規範 新制實施規範.
中科院昆明动物研究所培训 云南昆明 售前工程师:张希韬 TEL:
第五章 网络服务组件.
辅导老师:隋秀峰 2008年10月22日 Lab3:MPI Programming 辅导老师:隋秀峰 2008年10月22日.
第6章 计算机网络基础 信息技术基础.
计算机网络高级工 梁绍宇.
21世纪全国高职高专 计算机系列实用规划教材 计算机网络技术基础 主 编: 杨瑞良 李 平 副主编: 邱 涛 李明龙.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
第一章 地区电子政务发展案例(1) 地区(方)的概念:省/自治匹、市/州、县,相对中央、国务院 及各部委
Foundations of Computer Science
校园信息管理系统 河北科技大学网络中心 2000/4/10.
做好就业与自主创业的准备.
第六课 师爱助我成长 我爱我师 导入 新课 进行 新课 练习 拓展.
Linux并行计算平台搭建及应用 王彦棡 2010年5月.
第二章 项目一:企业厂区与车间平面设计 1.
香港普通話研習社科技創意小學 周順強老師.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
中央广播电视大学开放教育试点课程 计算机操作系统.
前言 1.课程安排: 第一章 操作系统引论(7学时) 第二章 进程管理(14学时) 第三章 处理机调度与死锁(10学时)
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
第8章 系統架構.
第 一 章 資訊系統開發概論 課程名稱:系統分析與設計 各位同學大家好,我是李春雄老師,本學期所開設的課程名稱為「資料結構」,
操作系统结构.
Windows 2000/XP网络组建与系统管理 李燕 中南分校.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
Windows Server 2003操作系统相关配置
第8章 机床操作 主讲:臧红彬 博士.
宁波材料所高性能计算集群普通用户培训 曙光公司.
毛泽东思想和中国特色社会主义理论体系概论
“服务器服务于Internet”报告会 倪光南 1999年7月6日
网络地址转换(NAT) 及其实现.
珍惜时间 提高效率 初二1班
第6章 電腦軟體 應用軟體 多元程式處理 系統軟體 記憶體配置 作業系統簡介 虛擬記憶體 作業系統的演進與發展 行程管理
網路基本概念 本章主要是為讀者建立有關網路的基本知識, 作為後續章節的基礎。首先我們會說明網路的基本概念, 接著介紹網路的各種類型與相關的作業系統, 最後則是介紹 OSI 與 DoD 等兩種網路模型, 讓讀者能進一步了解網路運作的方式。
第 13 章 DNS 著作權所有 © 旗標出版股份有限公司.
计算机应用基础 第二章 操作系统基础 2018/11/16.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
第4章 作業系統的介紹及操作.
第8章作業系統.
分散式資料庫管理系統 與主從式系統 資料庫系統設計實務與管理,5e
作 業 系 統 第三組 楊育翰 顏瑞霖.
Linux 圖形操作介面 GUI -- X-window 與 Webmin
Hadoop平台使用 计算中心
中国散裂中子源小角谱仪 的实验数据格式与处理算法 报告人:张晟恺 中国科学院高能物理研究所 SCE 年8月18日
CHAPTER 6 認識MapReduce.
曙光信息产业(北京)有限公司 技术支持中心 戴荣 2007年12月
曙光集群简明使用手册 技术支持中心.
High Performance Computing Service in NTUCC
NS2 – TCP/IP Simulation How-Wei Wu.
第二章 防火墙基础技术.
Operating System Principles 作業系統原理
操作手冊 垂直爐管.
系統元件與結構塑模.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
第 1 章 人與地球環境 1-1 人與地球環境綜覽 1-2 探索地球的起源
中国科学技术大学计算机系 陈香兰 Fall 2013 第三讲 线程 中国科学技术大学计算机系 陈香兰 Fall 2013.
Speaker : Chang Kai-Jia Date : 2010/04/26
微信商城系统操作说明 色卡会智能门店.
2.1 高職與私立學校註冊操作說明 (2015/9/15上線)
1.3操作系统提供的服务和用户接口 操作系统提供的用户接口 程序接口与系统调用 操作接口与系统程序
Print Security Audit System
架构师成长感悟 吴隆烽
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
县级支中心 乡镇基层服务点的建设 朱 庆 华.
Presentation transcript:

集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员

报告主要内容 1、集群简介 2、作业管理系统PBS简介 3、作业脚本示例

1 集群简介 集群是一组独立的计算机(节点)的集合体,节点间通过高性能的互连网络连接;各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。 特征: 机群的各节点都是一个完整的系统:工作站,PC机或SMP机器; 互连网络通常使用商品化网络,如以太网、FDDI、ATM等; 网络接口与节点的I/O总线松耦合相连; 各节点通常有一个本地磁盘; 各节点有自己的完整的操作系统。 各节点除了可以作为一个单一的计算资源供交互式用户使用外,还可以 协同工作并表现为一个单一的、集中的计算资源供并行计算任务使用。 SMP(Symmetric MultiProcessor – 对称多处理器):是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。它是相对非对称多处理技术而言的、应用十分广泛的并行技术。在这种架构中,一台电脑不再由单个CPU组成,而同时由多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。 松耦合:松耦合系统通常是基于消息的系统,此时客户端和远程服务并不知道对方是如何实现的。客户端和服务之间的通讯由消息的架构支配。只要消息符合协商的架构,则客户端或服务的实现就可以根据需要进行更改,而不必担心会破坏对方。 FDDI(Fiber distributed data interface )光纤分布数字接口 ATM(Asynchronous Transfer Mode)异步传输模式

1 集群简介—Ctrldata Cluster(.8) Internet 管理节点配置: CPU:Intel(R) Xeon(R) 1.6G 内存:4G(41.0G) 系统:Linux AS4.0 计算节点配置: CPU: Intel(R) Xeon(R) 3.0G 内存: 4G(41.0G)

2 作业管理系统---PBS 最初由NASA在20世纪90年代早期开发 面向集群系统提供有效的作业管理服务 目前有两个版本:OpenPBS(开源)和PBSPro(商业) CHESS集群管理系统集成了PBS系列管理软件TORQUE。 PBS: Portable Batch System TORQUE:Tera-scale Open-source Resource and QUEue manager

2 作业管理系统---PBS特点 TORQUE: 易用性:PBS为所有资源提供统一的借口,易于配置,作业调度灵活 移植性:用于shell和批处理等各种环境 适配性:适配与各种管理策略,提供可扩展的认证和安全模型 灵活性:支持交互、批处理、串行及并行作业 扩展性:标准PBS支持约300个节点,满足集群需要 TORQUE: 基于PBS项目的开源软件,可以认为是开源的OpenPBS的改进版。其优点有: 扩展性强:TORQUE可以支持超过1500个节点 容错性好:修正了大量的bug,提供更多故障支持

2 作业管理系统---PBS结构 PBS Server:运行于集群的管理节点。创建并接受作业、修改作业、激活调度器(PBS Scheduler)以及通知PBS执行器(PBS Moms)执行作业 PBS Scheduler:根据资源管理器获知各个节点的资源状况和系统的作业信息生成相应的作业优先级列表 PBS Moms:每个节点均有一个后台进程,该进程真正启动和停止提交到该节点的作业

2 作业管理系统---PBS作业会话实现 mom client server scheduler 5 qsub 1 6 7 2 3 4 1、用户向服务器提交作业脚本; 2、服务器将作业放入队列并由调度器检查作业队列; 3、调度器询问执行器,获取资源信息,如内存、cpu及负载等; 4、调度器检查作业并分配资源,返回作业ID及资源列表给服务器; 5、服务器通知执行器执行任务脚本; 6、执行器执行脚本,监控执行状况并返回信息到服务器; 7、服务器通知执行结束

2 作业管理系统---PBS常用命令 作业提交命令---qsub 命令格式: qsub my_script 返回信息: 作业ID号

2 作业管理系统---PBS常用命令 作业状态检查命令—qstat 命令格式:qstat -f

2 作业管理系统---PBS常用命令 作业挂起命令---qhold 命令格式: qsub job_id 作业删除命令---qdel 命令格式: dsel job_id 详细信息请查询PBS使用指南

3 作业脚本示例—runefit.pbs 不必要部分 #PBS -S /bin/bash #PBS -o out_runefit #PBS -e err_runefit #PBS -l nodes=4:ppn=2 echo ------------------------------------------------- echo -n 'Job is running on node '; cat $PBS_NODEFILE echo -------------------------------------------------- echo PBS: qsub is running on $PBS_O_HOST echo PBS: originating queue is $PBS_O_QUEUE echo PBS: executing queue is $PBS_QUEUE echo PBS: working directory is $PBS_O_WORKDIR echo PBS: execution mode is $PBS_ENVIRONMENT echo PBS: job identifier is $PBS_JOBID echo PBS: job name is $PBS_JOBNAME echo PBS: node file is $PBS_NODEFILE echo PBS: current home directory is $PBS_O_HOME echo --------------------------------------------------- cd $PBS_O_WORKDIR ./efitd129d 不必要部分

------------------------------------------------- Job is running on node chess_004.localdomain chess_004.localdomain chess_003.localdomain chess_002.localdomain chess_005.localdomain -------------------------------------------------- PBS: qsub is running on chess_001.localdomain PBS: originating queue is default PBS: executing queue is verysmall PBS: working directory is /home/lzp/efit/efitht7u PBS: execution mode is PBS_BATCH PBS: job identifier is 270.chess_001.localdomain PBS: job name is runefit.pbs PBS: node file is var/chess/torque/aux//270.chess_001.localdomain PBS: current home directory is /home/lzp --------------------------------------------------- 输出文件out_runefit