高能物理云计算应用 中国科学院高能物理研究所 计算中心 程耀东 2016年6月6日.

Slides:



Advertisements
Similar presentations
AWS 公有云服务. Amazon Web Service 简介 AWS 是向最终用户交付计算资源、保存数据和其他应用程序的一种最经济划算的方式,开发人员只需要按使用量付费,无需前期资本支出。利用 AWS ,开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序,以及灵活选择任何开发平台或编程环境。
Advertisements

13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
云计算及安全 ——Cloud Computing & Cloud Security
职业教育网络学习空间建设的实践与思考 江苏省南京工程高等职业学校.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
华为政务云解决方案服务政府、公众和企业 政务云 高效服务,提升民众满意度 加强监管,提高治国理政能力 促进发展,改善产业结构.
云计算应用对比分析 李洁睿 周良俊 2017/3/8.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
上海地面通云主机产品 产品介绍 通信成就梦想 未来你我把握
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
中国数据中心发展趋势 虚拟化与云计算、IT基础架构技术趋势 王丛(Kim Wang) 中桥国际调研咨询 总经理兼首席分析师
网格 及其应用的一些相关技术 高能所计算中心 于传松
Network Storage and System Virtualization Technology
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
海蔚蓝科技公司介绍.
企业级云计算 A Enterprise Cloud Serivce
AWS雲端企業 馮治平 2016/09/29.
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
培训环境 无线 FDSMEETING_C201-1 FDSMEETING_C201-2 FDSMEETING_C201-3
崔涛,高能所云计算组 高能所计算中心 十八届全国科学计算与信息化会议 Openstack培训及操作 崔涛,高能所云计算组 高能所计算中心.
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
Kvm异步缺页中断 浙江大学计算机体系结构实验室 徐浩.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
作業系統 補充: 雲端運算.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
中国式的云计算服务模式 中企开源信息技术有限公司 CE Open Source Software.
朝雲端專業DBA邁進: 深入剖析 Windows Azure SQL Database 完整資料庫管理、雲端報表建立、建置分散式雲端資料庫
第二讲 搭建Java Web开发环境 主讲人:孙娜
Cloud Computing(雲端運算) 技術的現況與應用
國立屏東高級工業職業學校 雲端網路及 雲端開系統介紹
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
SOA – Experiment 3: Web Services Composition Challenge
大学计算机基础 典型案例之一 构建FPT服务器.
高能物理云平台中的弹性计算资源管理 中国科学院高能物理研究所计算中心 程振京 sce2017 Weihai,
SVN服务器的搭建(Windows) 柳峰
Jul 2014 HEAT部署Hadoop集群
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
基于openstack的虚拟资源调度技术研究
CHAPTER 9 供應鏈管理系統.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
云计算概述 云计算的概念与发展历程 体系结构 应用案例 优缺点分析 云计算前景 SI TEAM 孟茶
KVM虚拟机性能优化与应用 黄秋兰 高能物理研究所
软件工程基础 云计算概论 刘 驰.
走进中国科技网 中国科技网 李辉.
中国式的云计算服务模式 中企开源信息技术有限公司 CE Open Source Software.
MUON束流物理实验 袁野
第十八届全国科学计算与信息化会议 虚拟计算中的虚拟机调度与控制研究 崔涛、程耀东 2017年07月05日.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
程序设计工具实习 Software Program Tool
新一代安全网上银行 小组成员:杨志明 王晶 任毅 刘建中 关昊 刘超.
雲端虛擬化 Cloud Virtualization
微机系统的组成.
第四章 团队音乐会序幕: 团队协作平台的快速创建
新一代企业IT与OpenStack 贾琨 2014年7月.
计算与 平台架构应用实践  云 云 陈国勇.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
班級:四企四B 指導老師:李文瑞老師 組員: 莊煜麒4950L089 黃暉原4950L109
解决“最后1公里”问题.
28th Weekly Operation Report on DIRAC Distributed Computing
OpenStack vs CloudStack
雲端架構對企業外部管理與內部管理的改變.
软件服务导论 刘 驰 教授 博士生导师 北京理工大学计算机学院 副院长
第 18 章 雲端計算.
云计算在高能物理实验 分布式计算的结合应用
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
3.8 局域网应用实例 某省劳动和社会保障网络中心组网实例 会议中心的无线组网实例.
Presentation transcript:

高能物理云计算应用 中国科学院高能物理研究所 计算中心 程耀东 2016年6月6日

提纲 云计算与高能物理需求 IHEPCloud项目及虚拟计算 未来展望

云计算-定义 其定义众说纷纭 美国NIST(美国国家标准与技术研究所):云计算是一种模型,它可以实现随时随地,便捷地,随需应变地从可配置计算资源共享池中获取所需的资源(例如,网络、服务器、存储、应用、及服务),资源能够快速供应并释放,使管理资源的工作量和与服务提供商的交互减小到最低限度。 五个特点 随需应变的自助服务;无处不在的网络访问;资源共享池;快速而灵活;计量付费服务 三种服务模型 软件即服务SaaS;平台即服务PaaS;基础设施即服务IaaS 四种部署模型 私有云(Private cloud);社区云(Community cloud);公共云(Public cloud) ;混合云(Hybrid cloud)

云计算服务模式 SaaS 软件作为服务 Google App Microsoft Live SalesForce SaaS PaaS 平台作为服务 Google AppEngine Microsoft Azure Sina AppEngine IaaS 基础设施作为服务 Amazon S3/EC2 IBM BlueCloud 阿里云…

典型的高能物理计算集群架构 计算资源由各个实验组购买 划分为很多计算队列

计算资源使用统计(示例) 2016.5.29-6.4

总体41% 排队 总体情况 2016.5.29-6.4

使用特点 有的队列大量排队,有的队列空闲 每个队列的使用均存在高低的波动 不同队列之间的使用高峰时间不同 总体资源使用同时出现大量排队和资源利用率不高的问题 在示例中,排队有时高达1万作业,但是仍然存在5000左右的CPU核空闲

存在的问题 引入虚拟化和云计算 队列使用控制 个人权限限制 操作系统等运行环境不兼容 不支持抢占,资源回收慢 不允许其它人或其它组使用 每个人最多只能运行具体数目的作业,提交太多,不允许运行 操作系统等运行环境不兼容 不同实验组之间不能互相运行作业 不支持抢占,资源回收慢 引入虚拟化和云计算

虚拟计算集群 在物理机和RMS(资源管理系统,比如PBS)之间构造虚拟层 将物理机虚拟化,形成多个虚拟机 按照作业量动态扩展或者收缩计算队列的资源 减少运维工作量,提高资源利用率 WLCG Grid RMS Virtualized RMS nodes Virtual machines Openstack Dedicated SGE working physical nodes VMM VMM VMM VMM Physical machines

CERN Cloud CERN Cloud是世界最大的虚拟集群之一 基于Openstack构建,2013年开始运行 统一管理两个数据中心(日内瓦与布达佩斯) 规模:5800物理机,15.5万颗CPU核,18000虚拟机 2016年还将扩充资源,全部资源都将虚拟化 根据集群任务动态创建或删除虚拟机 平均10秒钟创建/删除一个虚拟机 CERN团队获得Openstack 2015年巴黎峰会SuperUser大奖 数据来源:HEPiX 2016 Spring

IHEPCloud 2014年11月上线服务 面向用户的自助服务 虚拟计算集群,动态资源调度 基于用户的记账系统和资源互换 IaaS服务,个人虚拟机 虚拟计算集群,动态资源调度 基于物理作业动态启动和注销虚拟机 针对作业调度适配的image,一个作业一台虚拟机 灵活的网络架构 任意虚拟机可以调度到任意物理服务器,接入任意网络 基于用户的记账系统和资源互换 开发的用户虚拟计算资源使用记账系统 基于“积分”的用户资源提供和消费机制

个人云计算 个人测试机,拥有完全权限 虚拟登录节点 在线自助申请,无需审批 几分钟之内拥有一台完全可控的机器 拥有root权限 与登录节点环境完全相同 不受物理登录节点(lxslcXXX) 资源限制) 不受其它用户影响 只能用AFS账号登录 没有root访问权限 在线自助申请,无需审批 http://cloud.ihep.ac.cn

Architecture OpenStack DNS API Get info. interactive Storage path Push info. Dashboard Dirac Virtual Cluster API API Host Monitor OpenStack Log Analysis authentication LDAP Service monitor UMT (IHEP EMAIL) Register Nagios Get VM info. Interoperation DNS Configuration management Backend storage UMT (CAS CLOUD) Register DNS CEPH NetworkDB Register Puppet

虚拟集群计算中间件:VPManager (Virtual resource Pool Manager) Application BES CEPC JUNO LHAASO Get VM Status, Decide to be deleted VM Node Manager Server Virtual Job Scheduler VPBS VCondor VM Node Agent Get Quota Info Create/Delete VM VM Quota Interface (Socket) Image Mngt. API VM Pool NETDB Accounting Table Openstack 1 Openstack 2 image NMS/DNS/…

资源份额管理 设置不同的计算队列,制定不同的虚拟队列 针对不同的应用开发不同的负载检查程序,比如VPBS, Vcondor,将来可以扩展到其它应用,比如Web集群等 每个队列由最大值、最小值、预留等份额管理 队列名称 最少资源 最大资源 可用资源 预留时间(秒) BES 100 400 200 600 JUNO 300 策略 LHAASO:可用50 JUNO:可用40 VCondor 提交 作业 LHAASO排队100 JUNO排队80 申请资源 VMQuota Openstack 资源 状态 作业队列(JUNO, LHAASO等)

虚拟机性能测试(1) BES模拟作业 测试环境 测试结果 相同数量的作业运行物理机和虚拟机上,每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核):1,12,24 测试环境 虚拟机:1CPU cores,2GB memory 物理机:24CPU cores,16GB memory 测试结果 1个作业:虚拟机损耗~ 3% 24个作业:虚拟机损耗~2% Job alltime usertime CPU slow 1-pm 3318.51 3303.13 99.5% 1-vm 3427.12 3391.56 98.9% 3.3% 12-pm 3761.75 3740.76 12-vm 3862.58 3828.31 99.1% 2.7% 24-pm 3786.45 3750.01 24-vm 3870.08 3829.19 2.2%

虚拟机性能测试(2) BES重建作业 测试环境 测试结果 相同数量的作业运行物理机和虚拟机上,每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核):1,12,24 测试环境 虚拟机: 1CPU cores,2GB memory 物理机: 24CPU cores,16GB memory 测试结果 1作业:虚拟机损耗~ 3% 24作业:虚拟机~16% Job alltime usertime CPU slow 1-pm 6409.75 6394.53 99.7% 1-vm 6642.33 6632.84 99.3% 3.6% 12-pm 7333.58 7305.78 12-vm 7639.41 7583.24 99.4% 4.2% 24-pm 7366.25 7333.02 24-vm 8564.37 8286.49 97% 16.3% Network I/O consumption cause high IOWait

资源状况 Openstack 1: 主要面向个人用户,21个计算节点,336个物理核,464个虚核 已经使用362个 Openstack 2: 主要面向虚拟集群,28个计算节点,672个物理核,1个虚核对应一个物理核 支持LHAASO, JUNO, BES, CEPC加速器设计等 LHAASO: 410 JUNO: 100 BES:100 CEPC: 50 存储与备份 个人虚拟机不提供额外的存储和备份,可考虑IHEPBox 登录节点和计算集群使用公共存储, /afs, /besfs, /ybjgfs, /eos等

运行情况 JUNO LHAASO VCondor动态调度效果, LHAASO根据作业排队增加/减少虚拟机 (2016年4月起,6万多个作业,5万CPU小时,作业效率84.8%,与物理机运行效率接近) LHAASO (2016年1月起,4万多个作业,48万CPU小时 ,作业效率92.6%) 作业排队,自动增加虚拟机,而后排队减少 最小值 VCondor动态调度效果, LHAASO根据作业排队增加/减少虚拟机

虚拟计算集群规划 PBS 各个实验的物理机虚拟化,构成统一共享资源池,按需按策略使用 BES JUNO LHAASO Other Job Queues PBS Resource Scheduler ACCOUNTING Virtual Machines … Physical Machines BES JUNO LHAASO 各个实验的物理机虚拟化,构成统一共享资源池,按需按策略使用

各实验组资源互换计划 基础 目标 倡议 基本技术已具备,希望各实验组考虑加入这一计划,可以从少量资源共享开始! 计算资源使用,有忙有闲 精细记账,知道我使用了别人多少资源,别人使用我多少资源 快速动态调度资源,实时响应作业变化 支持作业抢占,满足高优先级作业优先运行 目标 空闲时,各实验组向外贡献资源 紧急时,实验组可以使用比自己更多的资源 如愿意付费,可以自动代理使用商业云 实验组优先使用自己的资源 使用方式不变,完全透明 倡议 基本技术已具备,希望各实验组考虑加入这一计划,可以从少量资源共享开始!

中国高能物理云计算社区 目标与各实验组资源共享一样 技术上与网格侧重点不同 资源共享、使用更多资源、等等 技术上与网格侧重点不同 构造跨站点的统一系统映像 广域网上的使用方式与本地相同 跨站点/商业云资源自动组成资源池,由后台操作 美国OSG已经运行10多年,使用HTCondor作为中间件,具有丰富的经验 自动转移作业 亚马逊,阿里云,… 商业云 BUSY SiteA SiteB

HTCondor分布式资源管理 计算实例 仓储 作业 Condor Sched Condor Sched Condor Central Manager Condor Central Manager HTCondor CE (HTCondor、PBS、Slurm…) HTCondor CE (HTCondor、PBS、Slurm…) 计算节点(HTCondor) 计算节点(PBS) pbs_mom condor_startd condor_startd condor_startd 防火墙边界 机构A 机构B

小结 虚拟化和云计算技术已经相对成熟 基于虚拟化提高资源利用率是可行的方案 高能物理领域开始广泛采用虚拟化和云计算 高能所虚拟集群和动态资源调度已经上线试运行 实验组资源互换与中国高能物理云计算社区规划,类似于共享经济概念,比网格计算更加自由灵活 最后,希望大家集思广益,探索资源共享机制,积极把资源加入高能物理云平台

谢谢 chyd@ihep.ac.cn