高能物理云平台中的弹性计算资源管理 中国科学院高能物理研究所计算中心 程振京 sce2017 Weihai,2017-07-05.

Slides:



Advertisements
Similar presentations
第七組古文閱讀報告 組長:秀惠 組員:孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯 朱買臣,字翁子,吳人也。 朱買臣,字翁子,吳國人。 家貧,好讀書,不治產業,常刈(一ˋ)薪 樵,賣以給 (ㄐㄧ ˇ ) 食。 家裡雖然很窮困,但是他還是很喜歡讀書,因 不懂得如何治理產業,只能靠著上山砍材去城.
Advertisements

你不知道的 3M P 班級 : 創意二甲 指導老師 : 袁又華 組長 : 林毓茹 組員 : 林以軒 林欣汝 陳盈羽 陳怡如 劉玉婷.
高级服务器设计和实现 1 —— 基础与进阶 余锋
——Windows98与Office2000(第二版) 林卓然编著 中山大学出版社
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
OpenStack开源虚拟化平台(三) 云计算 (第三版) 第 8 章 CLOUD COMPUTING Third Edition
鞘翅目 生科四乙 蘇俊融.
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
專題報告製作 胡舉軍 助理教授 資訊管理學系 樹德科技大學
回顾与展望:高州经验与广东医改 省卫生计生委、省医改办 黄 飞 2015年7月3日.
Openstack入门
医学人文 折翼的天使不会飞 谈晓文
核心价值观记心中 主题班会
班级小插曲.
YARN & MapReduce 2.0 Boyu Diao
崔涛,高能所云计算组 高能所计算中心 十八届全国科学计算与信息化会议 Openstack培训及操作 崔涛,高能所云计算组 高能所计算中心.
基于R和pentaho的全套开源BI平台的实现
Kvm异步缺页中断 浙江大学计算机体系结构实验室 徐浩.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
高能物理云计算应用 中国科学院高能物理研究所 计算中心 程耀东 2016年6月6日.
Jul 2014 HEAT部署Hadoop集群
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
网络常用常用命令 课件制作人:谢希仁.
基于openstack的虚拟资源调度技术研究
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
数 控 技 术 华中科技大学机械科学与工程学院.
KVM虚拟机性能优化与应用 黄秋兰 高能物理研究所
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
2018 北京大学汇丰商学院 日期:
Online job scheduling in Distributed Machine Learning Clusters
逆向工程-汇编语言
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
作业调度系统常用命令.
湖南大学-信息科学与工程学院-计算机与科学系
DevDays ’99 The aim of this mission is knowledge..
MUON束流物理实验 袁野
第十八届全国科学计算与信息化会议 虚拟计算中的虚拟机调度与控制研究 崔涛、程耀东 2017年07月05日.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
微机系统的组成.
第四章 团队音乐会序幕: 团队协作平台的快速创建
DQMClientDim.cxx及双光子练习
YARN原理和基本框架 张伟.
新一代企业IT与OpenStack 贾琨 2014年7月.
VisComposer 2019/4/17.
实验四、TinyOS执行机制实验 一、实验目的 1、了解tinyos执行机制,实现程序异步处理的方法。
计算与 平台架构应用实践  云 云 陈国勇.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
解决“最后1公里”问题.
百万亿次超级计算机诞生记 姓名 Xiangyu Ye 职务 微软中国技术中心资深HPC顾问 公司 微软中国
28th Weekly Operation Report on DIRAC Distributed Computing
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
云计算在高能物理实验 分布式计算的结合应用
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
本节内容 进程 视频提供:昆山爱达人信息技术有限公司 官网地址: 联系QQ: QQ交流群 : 联系电话:
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
Presentation transcript:

高能物理云平台中的弹性计算资源管理 中国科学院高能物理研究所计算中心 程振京 sce2017 Weihai,2017-07-05

提纲 背景——虚拟计算集群技术 VCondor——基于HTCondor的弹性计算资源管理系统 部署——高能所IHEPCloud云平台&运行结果分析 总结 大家都知道,随着我们高能物理实验的规模越来越大,对计算资源的需求也越来越大。虚拟化技术作为一种新的资源管理技术,正在高能物理领域得到越来越广泛的应用。是将计算机中的各种资源,如服务器、网络、内存和存储资源予以抽象、转换后呈现出来,打破实体结构间不可切割的障碍。 2017/07/05 高能物理云平台中的弹性计算资源管理

提纲 背景——虚拟计算集群技术 VCondor——基于HTCondor的弹性计算资源管理系统 部署——高能所IHEPCloud云平台&运行结果分析 总结 2017/07/05 高能物理云平台中的弹性计算资源管理

典型的高能物理计算集群架构 典型的数据密集型应用,高吞吐率的数据并发,普遍采用集群计算系统以及计算和存储分离模式 高能物理计算是典型的数据密集型应用,其计算特点是从海量数据中挖掘出稀有的事例。其特点是高吞吐率的数据并发。在高能物理领域中普通采用集群计算系统以及计算和存储分离的模式。计算节点使用批处理作业系统来处理。 典型的数据密集型应用,高吞吐率的数据并发,普遍采用集群计算系统以及计算和存储分离模式 集群计算资源由多个实验组提供,使用HTCondor作为RMS ~11000物理机和~2000虚拟机 同时存在多个独立的高能物理实验应用& 多个独立的计算队列 2017/07/05 高能物理云平台中的弹性计算资源管理

存在的问题 计算资源为多个计算队列使用,资源隔离 虚拟计算集群技术 各物理实验可使用的CPU核数是固定的 不同作业队列使用计算资源的高峰时间不同 同时存在作业大量排队而整体资源利用率不高的问题 虚拟计算集群技术 “弹性扩展”最早是由亚马逊提出 资源在多个计算队列中按需分配和弹性调度 多个弹性资源池, 根据作业需要动态扩张或收缩 最早是由亚马逊提出,弹性扩展是针对云应用或者WEB应用的运行资源的一种动态扩展,实现支撑云应用在运行期间的虚拟机数量的一种动态增加和减少 2017/07/05 高能物理云平台中的弹性计算资源管理

Openstack/OpenNebula 在传统虚拟集群上运行作业 在底层物理机集群和上层RMS(资源管理系统如HTCondor)之间构建虚拟机层VPManager 打破资源隔离,使计算队列在某些情况下可使用他人的或公共的计算资源,实现共享 WLCG Grid RMS VCondor/VPBS VPManager Virtual machines Openstack/OpenNebula Dedicated SGE working physical nodes VPManager同时包括了虚拟机监控,云平台调度和控制等其它内容。 VMM VMM VMM VMM Physical machines 2017/07/05 高能物理云平台中的弹性计算资源管理

提纲 背景——虚拟计算集群技术 VCondor——基于HTCondor的弹性计算资源管理系统 部署——高能所IHEPCloud云平台&运行结果分析 总结 2017/07/05 高能物理云平台中的弹性计算资源管理

面向高能物理应用的弹性资源管理框架 面向高能物理应用的弹性资源管理框架: 框架的前端使用作业批处理系统 HTCondor 调度作业运行,面向用户提供了提交作业 和管理作业的接口。 框架的中间层为自主开发的弹性集群调度 器。 框架的后端为运行用户作业的计算节点和 提供计算资源的物理机。 在高能物理领域的使用经验中,与其他作业调度器如 Torque PBS等相比,HTCondor表现出了支持多种平台、高吞吐以及支持更大规模集群的优 势。 2017/07/05 高能物理云平台中的弹性计算资源管理

资源池扩张流程 VCondor Openstack OpenNebula … VMQuota 2017/07/05 Condor Job Submit Node Job Compute Job Openstack OpenNebula … 7 WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow 5 VCondor 8 VM Creation 6 4 1 3 VMQuota Job LHAASO 2 9 Job Job Job Job 11 Job Job 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Openstack OpenNebula … 7 1. Users submit jobs to HTCondor. 5 VCondor 8 VM Creation 6 4 3 VMQuota Job LHAASO 2 9 Job Job Job Job Job Job 11 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Openstack OpenNebula … 7 2. Jobs enter the condor pool and queue up. 5 VCondor 8 VM Creation 6 4 1 3 VMQuota Job LHAASO 9 Job Job Job Job Job Job 11 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Openstack OpenNebula … 7 3. VCondor checks job and job queue information periodically. 5 VCondor 8 VM Creation 6 4 1 VMQuota Job LHAASO 2 9 Job Job Job Job Job Job 11 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow 5 VCondor 8 VM Creation 6 1 VMQuota 3 Job LHAASO 2 9 4. VCondor requests resources from VMQuota. Job Job Job Job Job Job 11 WN WN JUNO 10 Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 WN Condor Worker Node Compute Job Transfer 5. count the current computing resource consumption Virtual Machine VCondor Workflow VCondor 8 VM Creation 6 4 1 VMQuota 3 Job LHAASO 2 9 Job Job Job 11 Job Job Job 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 6. reserve and allocate part of the resources for the job queue WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow VCondor 5 8 VM Creation 4 1 VMQuota 3 Job LHAASO 2 9 Job Job Job 11 Job Job Job 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion 7. tell Openstack or OpenNebula to start a batch of virtual machines Openstack OpenNebula … VCondor 6 5 8 VM Creation 4 1 VMQuota 3 Job LHAASO 2 9 Job Job Job Job Job Job 11 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow VCondor 8 VM Creation 6 5 4 1 VMQuota 9. VM join in the condor pool as a worker node 3 Job LHAASO 2 Job Job Job 11 Job Job Job 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

Resource pool expansion Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow VCondor 6 5 8 VM Creation 4 1 VMQuota 3 Job LHAASO 2 9 Job Job Job Job 11 Job Job 10 WN WN JUNO Job Scheduler Job Job CONDOR POOL OF JOBS CONDOR POOL OF NODES 10. Jobs are pushed to worker nodes to run 2017/07/05 高能物理云平台中的弹性计算资源管理

资源池收缩流程 VCondor Openstack OpenNebula … VMQuota Condor Job Submit Node Openstack OpenNebula … Job Compute Job 7 WN Condor Worker Node Compute Job Transfer Virtual Machine VCondor Workflow 5 VCondor 8 VM Deletion 6 4 3 VMQuota LHAASO 9 1 2 Job Job Job Job Job 10 WN WN JUNO 经由VPManager中另外一个应用VMCtrl, 来告诉虚拟机在作业结束后退出Condor节点池,由Openstack销毁这些虚拟机并回收虚拟计算资源 Job Scheduler 11 CONDOR POOL OF JOBS CONDOR POOL OF NODES 2017/07/05 高能物理云平台中的弹性计算资源管理

VCondor 组件 弹性集群调度器VCondor: 虚拟资源配额服务VMQuota: Job submission 弹性集群调度器VCondor: 资源需求统计组件JobMonitor:查询记录作业信息及监控队列长度的变化 虚拟机启停控制组件NodeManager::使用基于Openstack或者Opennebula的API来创建或销毁虚拟机 组件通信与生命周期控制DAEMON:守护进程,周期性调用 虚拟资源配额服务VMQuota: 不同队列的计算资源份额管理 https://github.com/hep-gnu/VCondor.git 2017/07/05 高能物理云平台中的弹性计算资源管理

(1) JobMonitor:分析作业需求 使用基于 XML协议的 soap API 进行通讯 IHEPCloud: 高能所虚拟计算云平台 修改后的HTCondor version:8.2.5 基于Openstack kilo 版本,为不同高能物理实验制作不同虚拟机镜像 为多个高能物理实验如LHAASO, JUNO和CEPC 提供支持 通过基于 XML协议的 soap API在HTCondor的队列服务器 Schedd 上执行远程过程调用,以获取各队列用户作业的属性,并计算各队列作业对于计算资源,主要是 CPU核数目的需求 ,降低了该模块和condor之间的耦合度 使用基于 XML协议的 soap API 进行通讯 2017/07/05 高能物理云平台中的弹性计算资源管理

(2)NodeManager:虚拟机创建和销毁 VM Class —存储虚拟机相关属性,如主机名,所属计算队列和计算节点状态等 Icluster Abstract Class —实现该接口可支持对接多种云计算平台,如Openstack, OpenNebula, AWS EC2等 Openstack Cluster Class —通过实现REST风格的API,与Openstack 中的Nova组件通信,控制相应虚拟机的启停动作 ResourcePool Class —虚拟资源池类为跨多个云计算平台的虚拟计算资源的管理提供支持 设计两级缓冲池以应对作业瞬时峰值的压力 Openstack VM Manager Create/Delete VM VM info <object> <object> REST Client Post,Put,Delete Get REST API Nova Keystone Neutron …… 设计两级缓冲池以应对作业瞬时峰值对弹性集群扩展的压力 (1)一级缓冲池:由已开启但未加入 HTCondor资源池的虚拟机组成 。占用计算资源,可在需要时快速加入 HTCondor资源池,接收用户作业 运行 (2)二级缓冲池:由虚拟计算、网络和存储资源组成 OpenStack VM VM VM VM 2017/07/05 高能物理云平台中的弹性计算资源管理

(3)VMQuota:虚拟资源配额服务 vcondor LHAASO 100 400 200 600 JUNO 300 考虑到多个队列的情况… Queue Lower thresholds Upper thresholds Available resource Resource reservation time(seconds) LHAASO 100 400 200 600 JUNO 300 vcondor [{“ResID”:”juno”}] VMQuota 考虑到多个队列情况下,即使一个队列内有大量作业排队,其资源池也并非越大越好,而是应控制在一定阈值范围内,使其他队列仍然可以保有部分计算资源使用。因 此,为使计算资源得到最大化合理利用的同时,兼顾分配的公平性,通过双阈值的方式来限定每个队列资源池的大小。 阈值的设定需要考虑计算队列计算队列的优先级,平均队列长度,集群总可用计算资源数目等 Sending Requests Socket Socket Sending Replies [{“ResID”:”juno”,”MIN”:100,”AVAILABLE”:50}] VMQuota 2017/07/05 高能物理云平台中的弹性计算资源管理

提纲 背景——虚拟计算集群技术 VCondor——一种基于HTCondor的弹性计算资源管理系统 部署——高能所IHEPCloud云平台&运行结果分析 总结 2017/07/05 高能物理云平台中的弹性计算资源管理

Dynamic Scheduling Effect Upper thresholds Jobs queuing, automatically adding virtual computing nodes Lower thresholds LHAASO 虚拟资源池: 根据作业排队数目动态增加和减少虚拟机 2017/07/05 高能物理云平台中的弹性计算资源管理

提纲 背景——虚拟计算集群技术 VCondor——一种基于HTCondor的弹性计算资源管理系统 部署——高能所IHEPCloud云平台&运行结果分析 总结 2017/07/05 高能物理云平台中的弹性计算资源管理

Summary Future Vcondor实现虚拟计算资源的弹性控制 从2016-07起开始在高能所公共云平台IHEPCloud中进行试运行, 为LHAASO和JUNO实 验提供支持 作为虚拟计算集群中间件VPManager中的一个应用,可以为动态虚拟计算集群与提 出的计算资源共享互借计划提供支持 Future 前期工作侧重于系统实现与应用 后期侧重于调度算法上的改进 目前的调度算法是FCFS,比较简单 针对使用高能所 OpenStack 和 HTCondor 构建的虚拟计算集群实际应用环境,结合高能物理计算的特点,设计并实现了一种弹性计算资源管理系统,根据 HTCondor 中各队列作业的需要,动态地调整各物理实验队列占用的资源。与预分配资源的静态虚拟机集群相比,最大的特点是资源分配更具有灵活性,队列资源 池可根据需要弹性伸缩。目前系统已在 IHEPCloud 上进行了实际部署,从实际运行情况来看,计算资源利用率相比传统的静态资源管理方式有显著地提高。目前系统的规模不是很大,但基本技术已具备,下一步将有更多的物理实验的资源加入系统中。笔者及所在单位 Welcome to Contact us ! E-mail: chyd@ihep.ac.cn lihaibo@ihep.ac.cn chengzj@ihep.ac.cn 2017/07/05 高能物理云平台中的弹性计算资源管理

Thanks for your listening! Any Questions? 目前的调度算法是FCFS,比较简单 2017/07/05 高能物理云平台中的弹性计算资源管理