高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍.

Slides:



Advertisements
Similar presentations
大胆作为 勇于承担  建立安全监管新常态 市安全监管局 林凯军.
Advertisements

审核评估释义 余国江 教学质量监控与评估处.
中华字库的云输入法 王勇 基础软件国家工程研究中心
妇产科2015年上半年 工作总结 汇报人:.
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
华为政务云解决方案服务政府、公众和企业 政务云 高效服务,提升民众满意度 加强监管,提高治国理政能力 促进发展,改善产业结构.
职业生涯规划与择业求职 雅虎口碑高级分析师 杨玲 2008年10月31日.
沟通云平台 三三得玖通信技术有限公司 深圳市云屋科技有限公司 陈志伟
十五條佛規 後學:張慈幸
第五章 面试方法及应用.
道路交通管理 授课教师:于远亮.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
计算中心2002年总结.
目 录 CONTENTS 公积金信息系统升级概述 缴存和提取业务培训 第一部分 第二部分 Part 1 Part 2
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
实用操作系统概念 张惠娟 副教授 1.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
特殊教育課程與教學調整現場實務 特教小組 執行秘書 林坤燦.
固定资产加速折旧新政讲解 深圳国家税务局所得税处.
逃出生天游戏介绍 胡永泽 高振卓 答辩人:.
国家高技术研究发展计划 香港大学网格节点 Presented by Cho-Li Wang
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
基于云计算的数据安全 保护策略研究 报告人:王 立 伟.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/6/5,成都
作業系統 補充: 雲端運算.
大纲 高能所的数据密集型科学计算 Lustre在高能所的部署经验 问题和需求.
第二讲 搭建Java Web开发环境 主讲人:孙娜
Chinese Virtual Observatory
R in Enterprise Environment 企业环境中的R
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
大学计算机基础 典型案例之一 构建FPT服务器.
高能物理云平台中的弹性计算资源管理 中国科学院高能物理研究所计算中心 程振京 sce2017 Weihai,
Jul 2014 HEAT部署Hadoop集群
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
高能所数据存储系统现状与规划 李海波 中科院高能所计算中心 2017/6/5 成都.
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
LHAASO合作组会议,2017,威海 LHAASO作业调度及 存储系统 中科院高能物理研究所计算中心 李海波 威海.
软件工程基础 云计算概论 刘 驰.
极致清新·论文答辩 请填写论文副标题或补充内容 答辩学生:代用名 指导老师:代用名.
数据挖掘工具性能比较.
本节我们结合AD5724驱动时序给大家介绍一下状态机在实际工程中的使用。
大数据与物流 沈庆琼 物流教研室.
走进中国科技网 中国科技网 李辉.
哎呀小小草模板 汇报人:XXX.
实习前你需要知道的 PRESENTED BY Yisa.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
微机系统的组成.
大学英语跨文化交际 ——中西教育文化差异 精神卫生学院 林丽菁
行政管理者 的素质要求 中南大学湘雅医院 李远斌
新一代企业IT与OpenStack 贾琨 2014年7月.
VisComposer 2019/4/17.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
工 作 总 结 汇 报 地球来的张先森 7 / 11.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
基于SDN的高能物理数据传输虚拟专用网 技术研究与实现(应用示范)
南大天文系的 计算环境 黄永锋 南京大学天文系
Touch Github = Touch the World
28th Weekly Operation Report on DIRAC Distributed Computing
OpenStack vs CloudStack
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Google的云计算 分布式锁服务Chubby.
云计算在高能物理实验 分布式计算的结合应用
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
中科院高能所 计算中心 曾 珊 中科院高能所 计算中心 齐法制
SMC服务.
Presentation transcript:

高能物理计算环境概述(IHEP) 中科院高能物理所计算中心 姜晓巍

高能物理计算 背景和需求 01 体系结构 02 计算 03 存储 04 目录 CONTENTS 网络 05 系统管理 06 面临的问题 07

高能物理计算 PART ONE PART TWO PART THREE BEPCII & BESIII 5年累积数据>5PB的数据 西藏YBJ宇宙线实验 每年200TB的原始数据 大亚湾中微子实验 累积数据:4PB数据 大型强子对撞机LHC 每年15PB的数据 将来的项目: 云南 Lhaasso:预计1.2PB*10年 江门中微子:预计1PB*10年 PART ONE PART TWO PART THREE 这段时间,追完了一部剧叫琅琊榜,看了几部电影,其中推荐Inside Out 看完了关于如何做科学研究的几本书,只是觉得像喝了几碗鸡汤,然并卵罢了

高能物理计算特点与需求 特点 01 对数据访问的存储与需求 02 新需求 03 串行作业 数据密集性计算 数据快速访问:I/O性能 数据长期保存:海量数据保存 国际合作共享数据:数据传输 对数据访问的存储与需求 02 03 并行作业 新需求

体系结构

高能所计算环境结构 ~12000 CPU cores 5PB tape library ~6 PB disk space Power supply, cooling

机房基础设施 01 02 03 04 05 制冷 电力 消防 UPS 监视 空调制冷+机柜间水冷 机柜隔离间 总功率: 800kw -> 1600kw 单个机柜:10kw ->28kw 电力 02 03 联动气体灭火器 机房值班室->所保卫处->消防队 消防 04 UPS 05 温湿度传感器 机房值班+ OnCall 监视

计算 提供串行作业,MPI作业,GPU作业计算服务 当前 今后 ~9000 批处理作业槽 300+ GPU作业槽 1000+用户,活跃用户150个 今后 将增加至20,000作业槽

计算——作业管理(1) torque + maui htcondor slurm 使用超过10年 50+队列 性能监视 queue queue queue jobs torque + maui 使用超过10年 50+队列 性能监视 htcondor 适合单核作业,高吞吐作业量 CMS,JUNO,LHAASO slurm parallel计算支持较好 应用于很多高性能计算平台 nodes nodes nodes negotiator collector schedd jobs nodes nodes nodes

计算——作业管理(2) 作业统计 调度监视 作业记账

计算——网格计算 网格计算 -- Cern: 1999年:开始研究分布式网格计算,用于分析LHC的实验数据。 2001年: DataGrid Project,开发网格中间件,用于连接应用软件与 硬件资源,提供高能物理,生物信息等学科计算资源 2004年:Enabling Grid for E-science(EGEE)提供世界范围内的科 研人员不间断计算服务。每天完成2,000,000个计算作业。 2010年: European Grid Infrastructure (EGI) 支持欧洲网格服务 和基础设施的长期发展计划,扩展与其它网格项目的合作。

计算——网格计算

北京网格站点 支持ATLAS,CMS二个高能物理 实验 888作业槽,940TB存储 5Gbps网络连接到欧洲,10Gbps网 络连接到美国 IHEP 支持ATLAS,CMS二个高能物理 实验 888作业槽,940TB存储 5Gbps网络连接到欧洲,10Gbps网 络连接到美国 每年提供10,000,000 cpu小时计算 时间,完成5,000,000网格计算作业 高可靠性与有效性

计算——云计算 云计算:借助虚拟化技术、分布式海量存储技术等动态创建高度 虚拟化的IT资源池,通过网络提供服务 高能物理对云计算有强烈的需求 将OS与APP打包发布,提供轻量级的虚拟应用程序 将计算节点虚拟化,提高资源利用率 开源云中间件:OpenStack技术发展趋势 活跃社区,广泛支持 研究进行中 节点虚拟化管理、应用虚拟化封装等,即可提供大规模的云计算服务, 主要包括虚拟机(Iaas)、虚拟集群/网格(PaaS)以及云存储 (SaaS)服务

计算——云计算 现状 LHAASO、JUNO、BES、CEPC 动态分配资源 Openstack node1 node2 node3 …… YBJ BES node1 node2 node3 node4 Openstack

存储——高性能存储 … 采用高性能的并行集群文件系统,磁盘,带库分级存储 计算节点 并行集群文件系统 分级存储系统 统一存储系统 mds OSS 磁盘池 名字服务器 磁带池 HSM 物理存储设备 万兆以太网

存储——分级存储 根据高能物理计算的需求,自主开发 自动管理磁盘、磁带等不同的存储介质,多个磁带被虚拟成磁 带池,多个磁盘被虚拟成磁盘池 最后,通过名字服务器,将这些存储设备虚拟成统一的文件命 名空间。用户不用关心数据存放在什么存储设备,只需要按照 统一的文件名来访问即可 根据文件访问频度等因素,自动在磁盘与磁带之间迁移数据, 在保证海量数据存储的同时,也实现较高的数据访问性能,即 分级存储管理HSM 目前状况 26个LTO4磁带驱动器 ~1500个槽位,可以扩充到5PB的磁带空间 10个磁带服务器,10个磁盘服务器,120TB磁盘缓存

存储——分布式存储 Lustre,gLuster >6PB的磁盘存储 实际存储:>1亿个数据文件 针对不同的使用需求 大规模分布式存储系统 性能调优与二次开发 划分多个不同用途的存储区域 >6PB的磁盘存储 实际存储:>1亿个数据文件

网络——高速网络 科学院最大校园网,最高出口带宽 约500个网络服务器及设备 提供邮件,网络,协同工作等服务 >3000 用户 10G backbone IPv4/IPv6 双栈 校园网无线全覆盖 约500个网络服务器及设备 提供邮件,网络,协同工作等服务 >3000 用户 每年约4 PB的数据传输

管理——集中式部署管理(Puppet) Puppet: 开源的活跃社区 性能的需求 agent自动更新 Dashboard

管理——监视管理 Nagios Icinga Ganglia 设备监控、服务监控、分组监 控 机器分类、服务分组 分布式站点监控 自定义服务监控 Ganglia 计算环境当前及历史状态的记 录

管理——错误检查自修复工具 监视系统甄别问题节点 作业系统自动剔除 检查修复后恢复

管理——日志监控 FEK (Flume\Elasticsearch\kibana) 可靠 实时

管理——流量分析可视化 目标 任务 解答网络中Who?What? How?的问题 结合hadoop分布式框架 中的Map/Reduce编程思 想 Netflow数据采集 HDFS数据存储 实现实时和历史数据分析

管理——用户及设备管理 自主开发 用户管理系统 设备及备件管理 运行日志管理

面临的问题 面临困难 应用不断提出新的需求 开源软件的使用健壮性难以保证 集群规模扩张速度较快,故障频率增加 较多新型硬件 > 新的错误类型,需要联合厂商共同检查 应用不断提出新的需求 存储性能 作业调度性能 开源软件的使用健壮性难以保证 需求牵引,探索前进

谢谢! 问题?