HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心 2013-07-05.

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
Information Resource Management
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
第八章 大学生创业财务专题 熊凌云
Foundations of Computer Science
职业生涯规划与择业求职 雅虎口碑高级分析师 杨玲 2008年10月31日.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
思科Oracle RAC解决方案 Starry Wu UCS -GC.
对存储系统发挥特殊作用的文件系统 2006年5月 - 北京.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
网格 及其应用的一些相关技术 高能所计算中心 于传松
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
Network Storage and System Virtualization Technology
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
第7章 行政监督.
操作系统结构.
大数据在医疗行业的应用.
第6章 数媒资产管理系统的存储技术 刘士军 1、光纤通道
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
YARN & MapReduce 2.0 Boyu Diao
Hardware Chen Ching-Jung
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
「我國IPv6建置發展計畫」 92年度期中成果報告 應用推廣分項
高雄應用科技大學 有線網路建置實習(I) 聯易科技股份有限公司 Ben 李政勳
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
三信家商應用外語科 專題製作歷程與分享 報告人:朱心怡 朱源澤
第8章作業系統.
大纲 高能所的数据密集型科学计算 Lustre在高能所的部署经验 问题和需求.
淘宝核心系统数据库组 余锋 利用新硬件提升数据库性能 淘宝核心系统数据库组 余锋
GPU分散式演算法設計與單機系統模擬(第二季)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Isilon中国区技术经理 杨峰 虚拟天文台年会 存储技术交流 Isilon中国区技术经理 杨峰 Isilon Proprietary and Confidential.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
Hadoop平台與應用規劃實作 報告者:劉育維.
Zhihui Sun CC, IHEP 基于perfSONAR的高能物理网络性能监测平台研究与实现 Zhihui Sun CC, IHEP /12/2.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
胡維平 國立中正大學化學暨生物化學系 Aug. 30, 2017
基于SDN架构的高能物理数据传输虚拟专用网络研究与建设 For HEP Data
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
高能物理研究計劃 王子敬 中央研究院 Institute of Physics, Academia Sinica.
北極熊 華德學校 田根繩.
李亚康,齐法制,洪剑书,计算中心同事 中国科学院高能物理研究所 中国散裂中子源 2017/7/5,威海
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
虚 拟 仪 器 virtual instrument
瀕臨絕種—北極熊 設計者:吳柏曦 班別:5B1 學校:華德學校.
网格计算 计算中心 张晓梅 伍文静.
报告人:曾婷轩 实验物理中心数据获取组 2015年08月19日
百万亿次超级计算机诞生记 姓名 Xiangyu Ye 职务 微软中国技术中心资深HPC顾问 公司 微软中国
Cloud Computing Google云计算原理.
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
云计算在高能物理实验 分布式计算的结合应用
大亚湾实验离线数据处理 何苗 中国科学院高能物理研究所 2017年6月6日 中国科学院成都情报文献中心.
老厝老街老心情……. 一起尋找老街人文的感動 組員:家榕、瑞旂、子寧、琪芬
Experimental Analysis of Distributed Graph Systems
Presentation transcript:

HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心 2013-07-05

HEP Experiment(International) CMS experiment as a example. Raw data sent to online farm.(1PB/s) Physics Data: 1.5MB @ 150Hz=225MB/s (->tape) Alignment and Calibration Data: 100MB/s LHC runs for 10 million of seconds/year. > 3PB/year. Life time 20 years: 60PB. Atlas is same as CMS. > 150PB for all 4 Experiments on LHC

高能物理实验(国内) 国内的BESIII实验为例。 北京正负对撞机从2009年运行,产生了大量数据。 产生的数据量约3PB。 物理分析的数据约1/10,即300TB,10亿个事例(event)。 特点:数据量大、物理事例无关,同时属于“大海捞针”。

IHEP Computing Environment Architecture ON-line farm Login Servers Disk Servers CNIC 10Gbps 10Gbps TPservers 10Gbps 10Gb Ethernet (computing. & Storage Network) IHEP Campus Network 10Gbps 10Gbps FC 1GE 1GE 1GE 1Gbps Home Dirs(AFS) +Monitoring +Scheduler Tape Lib. CPU servers

Computing & Storage Facilities at IHEP 2 Tape Libraries(5PB)柜 Computing Cluster(+10000cores) 180X10Gb ports core switch 造价不菲! Disk storage(4PB) Central shift room

计算技术发展 主机时代:打孔—>操作系统。 专用连接时代:MPP。 以太网时代:Cluster计算/PC-FARM。 广域互联时代:网格计算。 强PC时代:强处理能力、大内存、大磁盘容量。如何利用?

PC时代:先进的数据处理框架 键-值对(Key,value):扩展性好、并发性高、速度快。存储: PB->EB。 索引:分布式、稀疏的、高并发、列查询。 更多优势:便宜、高效。 1991年伯克利内存数据库:一个内存(key,value)应用。

计算模式改变 传统集群:数据—>计算; Hadoop集群:计算—>数据。 后果: - 充分利用本地资源; - 减少了I/O的压力; - 减少系统造价; - 提高性能。

搜索引擎:Google GFS(Google File System)。 BigTable:打破了传统数据库 的局限,使非SQL数据库成研 究热点 MAP/Reduce并行处理框架。 PageRank:对网页重要性评 估的算法。 极强创新群体,工程师大都是 自然科学博士。微软大都是本 科生。 2003年开始发表论文,介绍研 究及应用成果。 Sergey Brin(1973), 身价198亿美元。斯坦福大学博士 Larry Page(1973), 身价198亿美元。密执安州立大学博士

开源项目:Hadoop 组件:HDFS、HBASE、Mapreduce ….。(2005年) Examples Yahoo: >40,000 nodes,100,000 cores The largest cluster has 4500 nodes Facebook:two hadoop clusters 1100 nodes, 8800 cores, ~12PB disk space 300 nodes, 2400 cores, ~3PB disk space Each node has 8 cores, 12TB disk space Baidu (year 2011): >10,000 nodes Customized nodes based on Intel framework, each node cost 3K-5K USD, with 12*1TB disks, 32GB memory

高能物理与Hadoop Bioinformatics, weather prediction, astronomical image processing, … High Energy Physics 7 CMS sites in the US Use HDFS as storage system Ref.:HEPiX Fall 2011 INFN Perugia: HDFS as Storage Element MapReduce for Root file analysis Ref.:CHEP2012 STAR project at Brookhaven Lab Build a MapReduce workflow for analysis of particle data Running Hadoop in Virtual Machine Thanks to Charles Earl(charlescearl@me.com) for sharing the information

BESIII computing framework based on Hadoop

解决的关键问题 随机写支持;(事例以树结构,快速遍历) 物理分析的类库;(与互联网搜索引擎不一样) 物理分析分为两步:预筛选与分析; 与现有系统的集成。

主要目标 建立高能物理分析的Hadoop平台。 建立物理事例Tag的Hbase索引数据库。 改变高能物理分析方式,提高效率,节省在计算上的造价。 下面几张幻灯片就是一些测试结果。

Hadoop集群的并行加速效果

Single node testing:Lustre VS Fuse+HDFS min Time used

Single node testing:Lustre VS Fuse+HDFS min user, wait & sys time used Lustre I/O wait time(~100 minutes) is about twice of HDFS

物理数据分析MapReduce模型 TAG信息生成 基于TAG信息的事例预筛选模型 基于TAG信息的事例统计 事例分析

重组事例及仿真结果

Tag标识及无标识比较 对2,727,074个事例进行了Rhopi分析。 预筛选系统使得事例分析时间减少到原来的16.9%:加速5.9倍。 对文件进行重构之后,时间进一步缩短到只有原来的2.3%:43倍多。

结论 通过研究BESIII的物理分析,了解分析的特点。 进行的仿真计算,若系统设计恰当,可以大幅度提高性能。 将进一步研究和开发,扩大系统测试规模,进一步取得新的结论。

SDN@IHEP 一个计划投入使用的进行高能物理大批量数据传输 的基于IPv6广域网链路的虚拟专用网络环境 CHEPDTN 计划参与方 End user network Backbone network(IPv6) L2VPN gateway Openflow switch Control center 计划参与方 高能所/上海交大/山大/清华/…… CSTNet/CERNet Ruijie/CNLink

SDN@IHEP进展 和企业合作成立SDN联合实验室 完成IPv6链路优化 完成L2VPN开发、测试与部署 控制器平台建设进行中 点对点测试达到800Mbps 完成L2VPN开发、测试与部署 网络效率达到85% 控制器平台建设进行中 2013年7月底部署OpenFlow交换机(暂定4台)

控制器 --Floodlight 一个Apache许可的openflow控制器 方便使用,可扩展,基于java开发环境 企业级水平 其核心引擎由bigswitch支持 生产系统使用 支持大量的物理或者虚拟交换机 Openstack quantum 不断支持新版本的openflow协议版本

谢谢!