高能物理云计算应用中国科学院高能物理研究所计算中心程耀东 2016年6月6日.

Slides:

Advertisements

Similar presentations

AWS 公有云服务. Amazon Web Service 简介 AWS 是向最终用户交付计算资源、保存数据和其他应用程序的一种最经济划算的方式，开发人员只需要按使用量付费，无需前期资本支出。利用 AWS ，开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序，以及灵活选择任何开发平台或编程环境。

Advertisements

13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎？

云计算及安全 ——Cloud Computing & Cloud Security

职业教育网络学习空间建设的实践与思考江苏省南京工程高等职业学校.

LSF系统介绍张焕杰中国科学技术大学网络信息中心

华为政务云解决方案服务政府、公众和企业政务云高效服务，提升民众满意度加强监管，提高治国理政能力促进发展，改善产业结构.

云计算应用对比分析李洁睿周良俊 2017/3/8.

教育雲端科技的現況與未來發展臺北市政府教育局聘任督學韓長澤.

上海地面通云主机产品产品介绍通信成就梦想未来你我把握

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

中国数据中心发展趋势虚拟化与云计算、IT基础架构技术趋势王丛（Kim Wang）中桥国际调研咨询总经理兼首席分析师

网格及其应用的一些相关技术高能所计算中心于传松

Network Storage and System Virtualization Technology

台灣雲端運算應用實驗中心研發計畫計畫期間：自98年7月1日至99年6月30日止執行單位名稱：財團法人資訊工業策進會國立中山大學.

海蔚蓝科技公司介绍.

企业级云计算 A Enterprise Cloud Serivce

AWS雲端企業馮治平 2016/09/29.

Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.

培训环境无线 FDSMEETING_C201-1 FDSMEETING_C201-2 FDSMEETING_C201-3

崔涛,高能所云计算组高能所计算中心十八届全国科学计算与信息化会议 Openstack培训及操作崔涛,高能所云计算组高能所计算中心.

高级软件工程云计算主讲：李祥 QQ: 年12月.

Kvm异步缺页中断浙江大学计算机体系结构实验室徐浩.

LSF系统介绍张焕杰中国科学技术大学网络信息中心

作業系統補充：雲端運算.

和諧社區資訊服務推廣計畫 -軟體雲端社區資訊研習營

中国式的云计算服务模式中企开源信息技术有限公司 CE Open Source Software.

朝雲端專業DBA邁進: 深入剖析 Windows Azure SQL Database 完整資料庫管理、雲端報表建立、建置分散式雲端資料庫

第二讲搭建Java Web开发环境主讲人：孙娜

Cloud Computing(雲端運算) 技術的現況與應用

國立屏東高級工業職業學校雲端網路及雲端開系統介紹

从现在做起彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.

SOA – Experiment 3: Web Services Composition Challenge

大学计算机基础典型案例之一构建FPT服务器.

高能物理云平台中的弹性计算资源管理中国科学院高能物理研究所计算中心程振京 sce2017 Weihai,

SVN服务器的搭建（Windows）柳峰

Jul 2014 HEAT部署Hadoop集群

基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状

基于openstack的虚拟资源调度技术研究

CHAPTER 9 供應鏈管理系統.

第11章：一些著名开源软件介绍第12章：服务安装和配置本章教学目标：了解当前一些应用最广泛的开源软件项目搭建一个网站服务器

大数据管理技术 --NoSQL数据库 HBase 陈辉大数据分析技术.

云计算概述云计算的概念与发展历程体系结构应用案例优缺点分析云计算前景 SI TEAM 孟茶

KVM虚拟机性能优化与应用黄秋兰高能物理研究所

软件工程基础云计算概论刘驰.

走进中国科技网中国科技网李辉.

中国式的云计算服务模式中企开源信息技术有限公司 CE Open Source Software.

MUON束流物理实验袁野

第十八届全国科学计算与信息化会议虚拟计算中的虚拟机调度与控制研究崔涛、程耀东 2017年07月05日.

李亚康，齐法制，洪剑书，计算中心同事中国科学院高能物理研究所中国散裂中子源 2017/7/5，威海

程序设计工具实习 Software Program Tool

新一代安全网上银行小组成员：杨志明王晶任毅刘建中关昊刘超.

雲端虛擬化 Cloud Virtualization

微机系统的组成.

第四章团队音乐会序幕：团队协作平台的快速创建

新一代企业IT与OpenStack 贾琨 2014年7月.

计算与平台架构应用实践云云陈国勇.

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

班級:四企四B 指導老師:李文瑞老師組員: 莊煜麒4950L089 黃暉原4950L109

解决“最后1公里”问题.

28th Weekly Operation Report on DIRAC Distributed Computing

OpenStack vs CloudStack

雲端架構對企業外部管理與內部管理的改變.

软件服务导论刘驰教授博士生导师北京理工大学计算机学院副院长

第 18 章雲端計算.

云计算在高能物理实验分布式计算的结合应用

基于列存储的RDF数据管理朱敏

Chinese Virtual Observatory

3.8 局域网应用实例某省劳动和社会保障网络中心组网实例会议中心的无线组网实例.

Presentation transcript:

高能物理云计算应用中国科学院高能物理研究所计算中心程耀东 2016年6月6日

提纲云计算与高能物理需求 IHEPCloud项目及虚拟计算未来展望

云计算-定义其定义众说纷纭美国NIST（美国国家标准与技术研究所）:云计算是一种模型，它可以实现随时随地，便捷地，随需应变地从可配置计算资源共享池中获取所需的资源（例如，网络、服务器、存储、应用、及服务），资源能够快速供应并释放，使管理资源的工作量和与服务提供商的交互减小到最低限度。五个特点随需应变的自助服务；无处不在的网络访问；资源共享池；快速而灵活；计量付费服务三种服务模型软件即服务SaaS;平台即服务PaaS;基础设施即服务IaaS 四种部署模型私有云（Private cloud）；社区云（Community cloud）；公共云（Public cloud）；混合云（Hybrid cloud）

云计算服务模式 SaaS 软件作为服务 Google App Microsoft Live SalesForce SaaS PaaS 平台作为服务 Google AppEngine Microsoft Azure Sina AppEngine IaaS 基础设施作为服务 Amazon S3/EC2 IBM BlueCloud 阿里云…

典型的高能物理计算集群架构计算资源由各个实验组购买划分为很多计算队列

计算资源使用统计（示例） 2016.5.29-6.4

总体41% 排队总体情况 2016.5.29-6.4

使用特点有的队列大量排队，有的队列空闲每个队列的使用均存在高低的波动不同队列之间的使用高峰时间不同总体资源使用同时出现大量排队和资源利用率不高的问题在示例中，排队有时高达1万作业，但是仍然存在5000左右的CPU核空闲

存在的问题引入虚拟化和云计算队列使用控制个人权限限制操作系统等运行环境不兼容不支持抢占，资源回收慢不允许其它人或其它组使用每个人最多只能运行具体数目的作业，提交太多，不允许运行操作系统等运行环境不兼容不同实验组之间不能互相运行作业不支持抢占，资源回收慢引入虚拟化和云计算

虚拟计算集群在物理机和RMS（资源管理系统，比如PBS）之间构造虚拟层将物理机虚拟化，形成多个虚拟机按照作业量动态扩展或者收缩计算队列的资源减少运维工作量，提高资源利用率 WLCG Grid RMS Virtualized RMS nodes Virtual machines Openstack Dedicated SGE working physical nodes VMM VMM VMM VMM Physical machines

CERN Cloud CERN Cloud是世界最大的虚拟集群之一基于Openstack构建，2013年开始运行统一管理两个数据中心（日内瓦与布达佩斯）规模：5800物理机，15.5万颗CPU核，18000虚拟机 2016年还将扩充资源，全部资源都将虚拟化根据集群任务动态创建或删除虚拟机平均10秒钟创建/删除一个虚拟机 CERN团队获得Openstack 2015年巴黎峰会SuperUser大奖数据来源：HEPiX 2016 Spring

IHEPCloud 2014年11月上线服务面向用户的自助服务虚拟计算集群，动态资源调度基于用户的记账系统和资源互换 IaaS服务，个人虚拟机虚拟计算集群，动态资源调度基于物理作业动态启动和注销虚拟机针对作业调度适配的image,一个作业一台虚拟机灵活的网络架构任意虚拟机可以调度到任意物理服务器，接入任意网络基于用户的记账系统和资源互换开发的用户虚拟计算资源使用记账系统基于“积分”的用户资源提供和消费机制

个人云计算个人测试机，拥有完全权限虚拟登录节点在线自助申请，无需审批几分钟之内拥有一台完全可控的机器拥有root权限与登录节点环境完全相同不受物理登录节点（lxslcXXX) 资源限制）不受其它用户影响只能用AFS账号登录没有root访问权限在线自助申请，无需审批 http://cloud.ihep.ac.cn

Architecture OpenStack DNS API Get info. interactive Storage path Push info. Dashboard Dirac Virtual Cluster API API Host Monitor OpenStack Log Analysis authentication LDAP Service monitor UMT (IHEP EMAIL） Register Nagios Get VM info. Interoperation DNS Configuration management Backend storage UMT (CAS CLOUD) Register DNS CEPH NetworkDB Register Puppet

虚拟集群计算中间件：VPManager (Virtual resource Pool Manager) Application BES CEPC JUNO LHAASO Get VM Status, Decide to be deleted VM Node Manager Server Virtual Job Scheduler VPBS VCondor VM Node Agent Get Quota Info Create/Delete VM VM Quota Interface (Socket) Image Mngt. API VM Pool NETDB Accounting Table Openstack 1 Openstack 2 image NMS/DNS/…

资源份额管理设置不同的计算队列，制定不同的虚拟队列针对不同的应用开发不同的负载检查程序，比如VPBS， Vcondor，将来可以扩展到其它应用，比如Web集群等每个队列由最大值、最小值、预留等份额管理队列名称最少资源最大资源可用资源预留时间（秒） BES 100 400 200 600 JUNO 300 策略 LHAASO：可用50 JUNO：可用40 VCondor 提交作业 LHAASO排队100 JUNO排队80 申请资源 VMQuota Openstack 资源状态作业队列(JUNO, LHAASO等)

虚拟机性能测试(1) BES模拟作业测试环境测试结果相同数量的作业运行物理机和虚拟机上，每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核)：1,12,24 测试环境虚拟机：1CPU cores，2GB memory 物理机：24CPU cores，16GB memory 测试结果 1个作业：虚拟机损耗~ 3% 24个作业：虚拟机损耗~2% Job alltime usertime CPU slow 1-pm 3318.51 3303.13 99.5% 1-vm 3427.12 3391.56 98.9% 3.3% 12-pm 3761.75 3740.76 12-vm 3862.58 3828.31 99.1% 2.7% 24-pm 3786.45 3750.01 24-vm 3870.08 3829.19 2.2%

虚拟机性能测试(2) BES重建作业测试环境测试结果相同数量的作业运行物理机和虚拟机上，每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核)：1,12,24 测试环境虚拟机: 1CPU cores，2GB memory 物理机: 24CPU cores，16GB memory 测试结果 1作业：虚拟机损耗~ 3% 24作业：虚拟机~16% Job alltime usertime CPU slow 1-pm 6409.75 6394.53 99.7% 1-vm 6642.33 6632.84 99.3% 3.6% 12-pm 7333.58 7305.78 12-vm 7639.41 7583.24 99.4% 4.2% 24-pm 7366.25 7333.02 24-vm 8564.37 8286.49 97% 16.3% Network I/O consumption cause high IOWait

资源状况 Openstack 1: 主要面向个人用户，21个计算节点，336个物理核，464个虚核已经使用362个 Openstack 2: 主要面向虚拟集群，28个计算节点，672个物理核，1个虚核对应一个物理核支持LHAASO, JUNO, BES, CEPC加速器设计等 LHAASO: 410 JUNO: 100 BES：100 CEPC: 50 存储与备份个人虚拟机不提供额外的存储和备份，可考虑IHEPBox 登录节点和计算集群使用公共存储, /afs, /besfs, /ybjgfs, /eos等

运行情况 JUNO LHAASO VCondor动态调度效果， LHAASO根据作业排队增加/减少虚拟机 (2016年4月起，6万多个作业，5万CPU小时，作业效率84.8%，与物理机运行效率接近) LHAASO (2016年1月起，4万多个作业，48万CPU小时，作业效率92.6%) 作业排队，自动增加虚拟机，而后排队减少最小值 VCondor动态调度效果， LHAASO根据作业排队增加/减少虚拟机

虚拟计算集群规划 PBS 各个实验的物理机虚拟化，构成统一共享资源池，按需按策略使用 BES JUNO LHAASO Other Job Queues PBS Resource Scheduler ACCOUNTING Virtual Machines … Physical Machines BES JUNO LHAASO 各个实验的物理机虚拟化，构成统一共享资源池，按需按策略使用

各实验组资源互换计划基础目标倡议基本技术已具备，希望各实验组考虑加入这一计划，可以从少量资源共享开始！计算资源使用，有忙有闲精细记账，知道我使用了别人多少资源，别人使用我多少资源快速动态调度资源，实时响应作业变化支持作业抢占，满足高优先级作业优先运行目标空闲时，各实验组向外贡献资源紧急时，实验组可以使用比自己更多的资源如愿意付费，可以自动代理使用商业云实验组优先使用自己的资源使用方式不变，完全透明倡议基本技术已具备，希望各实验组考虑加入这一计划，可以从少量资源共享开始！

中国高能物理云计算社区目标与各实验组资源共享一样技术上与网格侧重点不同资源共享、使用更多资源、等等技术上与网格侧重点不同构造跨站点的统一系统映像广域网上的使用方式与本地相同跨站点/商业云资源自动组成资源池，由后台操作美国OSG已经运行10多年，使用HTCondor作为中间件，具有丰富的经验自动转移作业亚马逊，阿里云，… 商业云 BUSY SiteA SiteB

HTCondor分布式资源管理计算实例仓储作业 Condor Sched Condor Sched Condor Central Manager Condor Central Manager HTCondor CE (HTCondor、PBS、Slurm…) HTCondor CE (HTCondor、PBS、Slurm…) 计算节点（HTCondor）计算节点（PBS） pbs_mom condor_startd condor_startd condor_startd 防火墙边界机构A 机构B

小结虚拟化和云计算技术已经相对成熟基于虚拟化提高资源利用率是可行的方案高能物理领域开始广泛采用虚拟化和云计算高能所虚拟集群和动态资源调度已经上线试运行实验组资源互换与中国高能物理云计算社区规划，类似于共享经济概念，比网格计算更加自由灵活最后，希望大家集思广益，探索资源共享机制，积极把资源加入高能物理云平台

谢谢 chyd@ihep.ac.cn