第十八届全国科学计算与信息化会议 虚拟计算中的虚拟机调度与控制研究 崔涛、程耀东 2017年07月05日.

Slides:



Advertisements
Similar presentations
高校教师、高级项目经理 任铄 QQ : 第一章 操作系统引论 1.1 操作系统的目标和作用 1.2 操作系统的发展过程 1.3 操作系统的基本特性 1.4 操作系统的主要功能 1.5 OS 结构设计.
Advertisements

NAT与ICMP交互.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
初级会计电算化 (用友T3) 制作人:张爱红.
2.3 网络域名及其管理.
计算机基础知识 丁家营镇九年制学校 徐中先.
培训环境 无线 FDSMEETING_C201-1 FDSMEETING_C201-2 FDSMEETING_C201-3
崔涛,高能所云计算组 高能所计算中心 十八届全国科学计算与信息化会议 Openstack培训及操作 崔涛,高能所云计算组 高能所计算中心.
建设基于OpenStack的云计算平台 Lenovo ThinkCloud Center Foundation
Kvm异步缺页中断 浙江大学计算机体系结构实验室 徐浩.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都
第二讲 搭建Java Web开发环境 主讲人:孙娜
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
中国科学技术大学 肖 明 军 《网络信息安全》 中国科学技术大学 肖 明 军
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
高能物理云计算应用 中国科学院高能物理研究所 计算中心 程耀东 2016年6月6日.
大学计算机基础 典型案例之一 构建FPT服务器.
J&K STACK CMDB 产品介绍 Multi-Cloud Management Capabilities Service Provider.
高能物理云平台中的弹性计算资源管理 中国科学院高能物理研究所计算中心 程振京 sce2017 Weihai,
SVN服务器的搭建(Windows) 柳峰
Jul 2014 HEAT部署Hadoop集群
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
第一单元 初识C程序与C程序开发平台搭建 ---观其大略
第十七届全国科学计算与信息化会议暨智慧科研论坛
Windows网络操作系统管理 ——Windows Server 2008 R2.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
第17章 网站发布.
PaPaPa项目架构 By:Listen 我在这.
ENS 10.1安装配置指南 王俊涛 | SE.
作业调度系统常用命令.
DevDays ’99 The aim of this mission is knowledge..
任务1-3 使用Dreamweaver创建ASP网页
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
Unit 11.Operating System 11.1 What’s OS 11.2 Related Courses
程序设计工具实习 Software Program Tool
雲端虛擬化 Cloud Virtualization
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
C语言程序设计 主讲教师:陆幼利.
微机系统的组成.
第四章 团队音乐会序幕: 团队协作平台的快速创建
2019/4/20 关注NE官方微信,获取更多服务.
新一代企业IT与OpenStack 贾琨 2014年7月.
VisComposer 2019/4/17.
实验四、TinyOS执行机制实验 一、实验目的 1、了解tinyos执行机制,实现程序异步处理的方法。
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
解决“最后1公里”问题.
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
iSIGHT 基本培训 使用 Excel的栅栏问题
Visual Basic程序设计 第13章 访问数据库
28th Weekly Operation Report on DIRAC Distributed Computing
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
天文领域云--云平台系统 李长华 王甲卫 2019/5/26 On behalf of Astrocloud Project Team
Google的云计算 分布式锁服务Chubby.
云计算在高能物理实验 分布式计算的结合应用
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
入侵检测技术 大连理工大学软件学院 毕玲.
培训课件 AB 变频器的接线、操作及参数的备份 设备动力科.
网页版报名流程 Step 4 点击“详情”查阅具体岗位信息,输入身份数据及申请序列码进行最终报名
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
Primary introduction to docker
Presentation transcript:

第十八届全国科学计算与信息化会议 虚拟计算中的虚拟机调度与控制研究 崔涛、程耀东 2017年07月05日

提纲 高能所虚拟计算简介 虚拟机的调度与控制方案分析 未来的发展 CUI Tao/CC/IHEP 2019/2/27 - 2

高能所虚拟计算简介 实验组成立于2014年 2014年建成Cloud个人云平台 2015年开始建设虚拟计算环境 2016年完善系统架构 按需调度、可计量的动态虚拟机调度 2016年完善系统架构 融合,跨地域虚拟计算环境,EOS 2017扩展 虚拟网络新技术、虚拟计算规模化 2000核,1P存储 三个openstack平台,共计近90台物理服务器 1500 提供给虚拟计算,500核提供给Cloud 私有云平台 CUI Tao/CC/IHEP 2019/2/27 - 3

虚拟计算中的虚拟机调度与控制 2015-今 项目效果 虚拟计算整体架构规划 确定了Openstack+GlusterFS共享存储的云平台架构 引入了EOS文件存储系统 VPManager核心组件的设计和实现 VCondor、VQuota 虚拟资源调度和配额管理 VMCtrl、DetDB 虚拟机调度和控制 Accounting 记账 Images mgmt. 镜像管理 项目效果 Cloud私有云平台为290余人提供测试虚拟机和虚拟登录节点,目前活跃用户89人 虚拟计算服务于BESIII、JUNO、LHAASO等大科学项目,2016.4月开始有统计算起,虚拟集群累计运行2.23M个作业,提供了 2.37M cpu小时 CUI Tao/CC/IHEP 2019/2/27 - 4

Configuration management 高能所虚拟计算简介-虚拟计算系统架构 Dashboard Dirac Virtual Cluster API API 云基础平台 Host Monitor Log Analysis authentication Service monitor LDAP UMT (IHEP EMAIL) Register Nagios DNS Get VM info. Register DNS Register Puppet NetDB GlusterFS Backend storage Configuration management CUI Tao/CC/IHEP 2019/2/27 - 5 Shi,Jingyan/CC/IHEP 2019/2/27 - 5

VPManager 高能所虚拟计算简介-VPManager核心机制 Application Comupting Virtual Job BES CEPC JUNO LHAASO VPManager Comupting NMS/Ganglia HTCondor 作业查询 配额查询 作业调度 VM监视 VCondor VM Quota Virtual Job Scheduler Controller VM调度 资源查询 VM调度 Image Mngt. VMCtrl Accounting System 推送VM 资源状况 获取控制信息 Openstack NetDB VM Pool VM Agent

虚拟计算中的虚拟机调度与控制 Shi,Jingyan/CC/IHEP 2019/2/27 - 7

虚拟计算中的虚拟机调度与控制 虚拟计算系统的目标 动态虚拟机引发的问题 基于作业驱动的虚拟机调度 弹性计算/按需计算 基于作业驱动的虚拟机调度 弹性计算/按需计算 可计量的虚拟计算资源调度 实现计算资源的虚拟化及物理资源与虚拟资源的融合 实现基于Openstack技术的松耦合、可扩展的云基础平台 动态虚拟机引发的问题 环境匹配:DNS、DHCP、PUPPET、调度、监视 系统同步:虚拟机的Image是滞后的,OS环境需要更新 注销:虚拟机是动态存在的,对调度、监视和存储系统而言是挑战 CUI Tao/CC/IHEP 2019/2/27 - 8

虚拟资源调度与控制设计-功能 环境匹配 虚拟机的更新和同步 加入计算系统 注销 动态注册和注销 Puppet + DHCP 预定义 DNS 协议加入和注销 HTCondor\Ganglia 虚拟机的更新和同步 账号同步 AFS账号是用户提交作业的凭据 软件更新 补丁、升级 操作系统环境修正 系统参数变更 加入计算系统 注销 撤销环境匹配 变更协议配置 G_none 队列和Ganglia组 Shi,Jingyan/CC/IHEP 2019/2/27 - 9 Shi,Jingyan/CC/IHEP 2019/2/27 - 9

虚拟机调度与控制的系统架构 VMctrl Openstack VM Pool VCondor 作业调度 VM监视 VM Quota NMS/Ganglia HTCondor 作业查询 VCondor VM调度 资源查询 作业调度 VM监视 配额查询 VMctrl VM Quota VM调度 Image Mngt. 推送VM 资源状况 获取控制信息 Openstack NetDB VM Pool VM Agent CUI Tao/CC/IHEP 2019/2/27 - 10

数据库及VMCtrl服务 基于数据库的控制机制 组件的组成 基于数据库表项实现控制状态发布和执行 基于时间戳实现虚拟机有效性控制 数据库 通过WEI API写入控制命令 通过WEI API + Scirpt负责执行控制指令 基于时间戳实现虚拟机有效性控制 基于VMS+VMCtrl表项联合实现指令有效性控制 组件的组成 数据库 vmctrl表 虚拟机控制命令及关键服务状态机 vms表 虚拟机所属站点、运行状态及时间戳 WEB API php开发,实现数据的输入输出 Linux Script 服务器执行,crontab 定时执行 Linux Script 虚拟机执行,crontab 定时执行 Shi,Jingyan/CC/IHEP 2019/2/27 - 11

数据库及VMCtrl服务 功能 接收数据和指令 服务器上的Script 虚拟机上的Script NetDB组件获取的虚拟机运行状态信息 接收Vcondor组件发送的虚拟机控制状态变更命令 服务器上的Script 完成本地维护,如数据库刷新和清理等 虚拟机上的Script 获取控制信息和指令 主机名更新、Script自更新、时间同步 实现计算系统AFS账号同步 HTCondor配置变更和Reconfig Ganglia配置变更和Service Restart 定时执行命令(程序安装、配置下载、临时处理) Shi,Jingyan/CC/IHEP 2019/2/27 - 12

NetDB组件 功能 NetDB or Openstack API 组件的组成 访问Openstack数据库,收集虚拟机状态信息 收集资源使用情况并提供查询接口 上传控制数据库并刷新虚拟机的时间戳 DNS域名同步 PUPPET+DHCP注册和撤销 NMS监视同步和撤销 Unified Auth账号同步 组件的组成 VMCtrl数据库 vms表 C语言程序 NetDB or Openstack API Shi,Jingyan/CC/IHEP 2019/2/27 - 13

Image管理和Accounting Image管理 Accounting Image模板化 + PUPPET自动更新 HTTP Image发布服务 Accounting 支持多用户,资源属性,积分制等 数据来源 基于Ceilmeter 基于控制数据库 Shi,Jingyan/CC/IHEP 2019/2/27 - 14

虚拟资源调度与控制设计 虚拟机调度流程 启动虚拟机 加入计算环境 撤出计算环境 撤销虚拟机 Vcondor根据作业队列的排队情况和项目配额,发送启动虚拟机命令 虚拟机启动-操作系统更新和账号同步 注册环境信息 加入计算环境 Vcondor发送指令,确定虚拟机加入的队列名称,虚拟机读取控制信息-按照控制信息提供的作业队列修改HTCondor/Ganglia的配置,实现入队和加入监视 撤出计算环境 VCondor发送指令,确定虚拟机退出队列,加入G_none队列,虚拟机读取控制信息-按照控制信息提供的作业队列修改HTCondor/Ganglia的配置,退出作业队列和监视 撤销虚拟机 Vcondor发送指令,撤销虚拟机,在撤销之前,执行脚本完成关键系统的正常关闭 Shi,Jingyan/CC/IHEP 2019/2/27 - 15 Shi,Jingyan/CC/IHEP 2019/2/27 - 15

虚拟机调度与控制的响应时间 虚拟机启动 同步和软件更新 调度和监控的加入 撤销 小于10秒钟 共享存储 小于10秒钟 共享存储 同步和软件更新 1分钟 Linux Script 执行频率 1次/分钟 调度和监控的加入 小于10秒 撤销 作业运行时间 + Linux Script 执行时间间隔 + 调度和监视重载配置 Shi,Jingyan/CC/IHEP 2019/2/27 - 16

未来的发展 Shi,Jingyan/CC/IHEP 2019/2/27 - 17

松耦合的Openstack集群 Openstack扩展 松耦合的Openstack集群 Cells Nova的层次化扩展 Tricircle/Trio2o 代理机制 紧耦合的技术方案 松耦合的Openstack集群 实现资源的便捷加入和退出,以方便扩展\维护(重装\升级) 松偶合 基于插件自由加入或注销集群身份 NETDB插件 提供虚拟资源情况和操作功能 集群身份变动不影响在运行虚拟机和作业 VM Ctrl/HTCondor 实现潮汐调度 通过调度策略的调整,实现作业不繁忙时的物理设备停机 平台异构的支持 跨地域虚拟计算 Shi,Jingyan/CC/IHEP 2019/2/27 - 18

未来的计划—松耦合的Openstack集群

小结 虚拟机调度与控制是VPManager的重要组成部分和执行机构 基于协议的虚拟机加入机制,充分体现了虚拟机调度的灵活性 基于NetDB的虚拟机信息收集机制,可以扩展成为松耦合Openstack集群的关键组件 CUI Tao/CC/IHEP 2019/2/27 - 20

谢谢! Shi,Jingyan/CC/IHEP 2019/2/27 - 21