黄秋兰/高能所计算中心 Fabio Hermandez/IN2P3-CC

Slides:



Advertisements
Similar presentations
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Advertisements

研商「99年宜蘭縣相關單位同步滅鼠工作」執行事宜
『外食謹慎選、健康輕鬆來 上班族健康挑食小撇步』
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
实用操作系统概念 张惠娟 副教授 1.
课程中心 课程中心培训方案 上海泰泽信息技术有限公司
在PHP和MYSQL中实现完美的中文显示
移动开发的灵便迭代之道 黄凯.
基于R和pentaho的全套开源BI平台的实现
Kvm异步缺页中断 浙江大学计算机体系结构实验室 徐浩.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Linux 切换、 创建和删除目录 系统管理 宁波市高校慕课联盟课程
K/3 Cloud云之家集成 K/3 Cloud 基础系统部.
MariaDB Spider分库分表引擎调研
第二讲 搭建Java Web开发环境 主讲人:孙娜
R in Enterprise Environment 企业环境中的R
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
大学计算机基础 典型案例之一 构建FPT服务器.
SVN服务器的搭建(Windows) 柳峰
华为—E8372h- 155 外观设计 产品类型:数据卡 建议零售价格:299元 上市时间:2017年6月7日 目标人群:大众
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
PostgreSQL 8.3 安装要点 四川大学计算机学院 段 磊
Windows网络操作系统管理 ——Windows Server 2008 R2.
Windows网络操作系统管理 ——Windows Server 2008 R2.
第五讲 四则运算计算器(一) 精品教程《C#程序设计与应用(第2版)清华大学出版社 谭恒松 主编
S 数控机床故障诊断与维修.
Hub Web System 主要功能: 1.查询库存(Query Current Storage) 2.创建PL(Create PL) 3.查询、打印PL单(Query & Print PL) 4.查询允交量、在途量 5.修改用户的基本信息(Update Password) 6.查询GR(Query.
第17章 网站发布.
北京师范大学并行计算实验室 作业调度.
《手把手教你学STM32》 主讲人 :正点原子团队 硬件平台:正点原子STM32开发板 版权所有:广州市星翼电子科技有限公司 淘宝店铺:
ENS 10.1安装配置指南 王俊涛 | SE.
作业调度系统常用命令.
Windows 7 的系统设置.
DevDays ’99 The aim of this mission is knowledge..
任务1-3 使用Dreamweaver创建ASP网页
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
電子郵件簡介.
Web安全基础教程
第四章 团队音乐会序幕: 团队协作平台的快速创建
DQMClientDim.cxx及双光子练习
VisComposer 2019/4/17.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
姚金宇 MIT SCHEME 使用说明 姚金宇
实验七 安全FTP服务器实验 2019/4/28.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
信号量(Semaphore).
解决“最后1公里”问题.
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
组织机构栏目内容管理 青海省教育信息中心 2018年12月18日.
2019/5/10 网络学习空间实务操作.
Touch Github = Touch the World
郑 昀 应用开发事业部 神州泰岳 SIP多方会话消息 之实例讲解 郑 昀 应用开发事业部 神州泰岳
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Google的云计算 分布式锁服务Chubby.
_07多连接之select模型 本节课讲师——void* 视频提供:昆山爱达人信息技术有限公司 官网地址:
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
進行員工胸部X光 主講人:黃宜玟感控師 林新醫院
第四章 UNIX文件系统.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
第六讲 酒店客房管理系统(二) 教育部“十二五”职业教育国家规划教材
百万行、千万行数据查询教程 老黄牛.
Presentation transcript:

黄秋兰/高能所计算中心 Fabio Hermandez/IN2P3-CC 2011-07-06 支持AFS环境的批作业管理系统 黄秋兰/高能所计算中心 Fabio Hermandez/IN2P3-CC 2011-07-06

主要内容 系统研究背景及意义 系统设计与实现 系统部署与评价 总结与展望

集群系统概况 网格 探测器集群 分布式文件系统 登录节点 AFS NFS GRASS系统 作业管理系统 磁盘池 Lustre 计算节点 磁带库 计算节点

作业管理系统的问题 系统方面 管理方面 目前集群的所有用户管理和认证都采用AFS认证管理 OpenAFS(Andrew File System)采用Kerberos认证,每个AFS tokens的生命周期有限(默认25小时) 作业管理系统Torque 完全支持工作在采用标准UNIX用户认证的共享文件系统中,比如NFS、Lustre等,但不支持工作在AFS环境中。Torque无法保证用户从AFS的HOME目录提交作业的运行结果写会用户的HOME目录 管理方面 目前集群的所有用户管理和认证都采用AFS认证管理 系统管理需要同时提供AFS和NFS系统的在线服务,不是长久之计

如何解决? 方案一:放弃AFS系统,所有用户目录$HOME都采用NFS 方案二:集成Torque和AFS,使作业管理系统支持AFS环境 软件库的共享及并发访问问题,如BOSS软件的Gaudi库等 方案二:集成Torque和AFS,使作业管理系统支持AFS环境 集群可以不提供NFS服务 保证用户在AFS的用户目录下提交各种作业类型,都能正确的将运行结果写回用户的AFS目录 采用方案二,设计了PAFSI(PBS and AFS Integration)系统,有效的弥补了Torque的不足

系统总体设计 系统的设计采用客户端/服务器C/S结构,集群中消息的通信机制基于开源的ActiveMQ消息总线机制。

服务器端AFSTokenServer

服务器端AFSTokenServer的组成 运行在AFS的服务器上,负责保存、伪造及修改用户的AFS Tokens Token-Generator模块 监控集群节点的Tokens请求(节点名、作业ID、作业属主等信息) 验证请求的合法性 伪造合法的Tokens 延长Tokens的生命周期 记录Tokens请求 Token-Dispatcher模块 Tokens的分发,以消息为载体,发送有效的tokens给相应的计算节点,同时修改记录的标志位 请求信息的清理

AFSTokenServer的实现 无需修改AFS的源码 充分利用AFS的开源特性,调用AFS-DEVEL的相关接口,编写自定义的tokens接口 实现的接口有: forgeToken activateToken extendToken 服务器端对Tokens的操作,只需用户提供JOBID,JOBOWNER信息(不需要用户提供任何密码),即可完成有效的tokens伪造 采用ActiveMQ实现与客户端的消息通信,服务器端以消息为载体,发送有效的tokens给相应的计算节点

客户端AFSTokenClient 客户端的实现主要是对Torque PBS的pbs-mom模块扩展 运行在所有计算节点上,负责请求、接收、保存并设置作业运行环境以激活用户的AFS Tokens PBS-MOM jobs AFSTokenClient Exist valid tokens? no Send tokens request Receive tokens Activate tokens in jobs’ environment Create PAG yes 当调度到新作业时,向服务器端发送tokens请求,( JOBID,JOBOWNER,HOSTNAME) 接收从AFSTokenServer端以消息形式发送过来的Tokens,并保存 设置作业运行环境以激活tokens

系统的消息服务层 基于开源消息中间件ActiveMQ实现系统消息服务层 ActiveMQ是一个开放源码基于Apache 2.0 licenced发布并实现了Java Message Service(JMS1.1)规范 AFSTokenServer ActiveMQ Pending Queue2 Pending QueueN Pending Queue1 … AFSTokenClient

作业的生命周期对比 作业创建 作业提交 作业执行前 作业执行 作业结束 作业生命周期 PAFSI作业管理系统 Torque PBS作业管理系统 作业创建 用户通过shell命令组成的批处理的脚本文件 作业提交 qsub命令提交作业 作业执行前 1、pbs_mom对作业运行的资源、环境进行判断 2、发送AFS tokens请求,获取用户的AFS tokens 3、设置作业运行环境,激活AFS tokens pbs_mom对作业运行的资源、环境进行判断 作业执行 检测AFS tokens的生命周期,延长tokens生命周期 无 作业结束 1、销毁用户的AFS tokens 2、释放计算资源 释放计算资源

PAFSI系统与Torque的作业处理过程 Torque PBS的作业处理过程 PAFSI系统的作业处理过程

系统的部署情况 系统采用C/S框架,涉及服务端和客户端的部署 高能所计算中心已部署了16个计算节点,128个CPU cores 服务端部署在AFS服务器上 客户端部署在所有计算节点上 高能所计算中心已部署了16个计算节点,128个CPU cores 在今年8月份,大规模投入使用,部署600多个计算节点,支持数千个作业并发执行

系统评价 使用方面 实现方面 资源使用方面 PAFSI系统实现对用户透明 用户无需修改作业脚本,采用传统的方式提交 系统不需要用户提供账号密码 本系统就不存在如下问题,以美国圣母大学开发的PSR (Password Storage and Retrieval System)系统为例 当用户密码发生改变时,PSR管理员需要重新要求用户告知密码。 告知密码,用户的安全性得不到保障,同时用户若是频繁的更换密码,对PSR管理员和用户来说,都是一个很繁琐的过程 资源使用方面 客户端只有一个守护进程 每个作业没有额外的伴随进程,节省系统资源开销

小结 本系统旨在解决Torque PBS的不足,保证用户在AFS的用户目录下提交各种类型的作业,包括各种长作业、短作业等,都能正确的将数据写回用户的AFS目录。 系统的主要特点有: 采用传统的客户端/服务器框架,在实现过程中模块相对独立,易于维护 不需要修改AFS源码,调用AFS-DEVEL的相关库,编写伪造、修改AFS Tokens的相关接口 不需要用户提供账号密码,即可伪造有效的tokens,保证用户访问AFS系统 采用ActiveMQ,实现高效的消息通信 使用方面,实现对用户透明 性能上与Torque PBS相当,支持数千个任务的并发运行 PAFSI系统兼容传统的Torque PBS系统,支持NFS、Lustre等存储环境

谢谢大家!