EventDB: 基于NoSQL的高能物理事例管理

Slides:



Advertisements
Similar presentations
環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
Advertisements

(一)辦桌文化起始略說: 1. 祭祀宗教 2. 生命禮儀 3. 外燴 --- 老師、師公、師傅、總鋪師 4. 搬桌搬椅時代 (二) 食物食材 1. 靠山考海 2. 基本:炒米粉、糍、檳榔 3. 小吃搬上桌 (三) 變變變 1. 調味不同 2. 師承不同 3. 地點也變.
《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
第4章 交易性金融资产与可供出售金融资产 学习目标
虹膜识别健康养老服务智能系统项目.
看不見的聲音 唐代女性文學.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
職校、五專群科簡介.
(4F01) 陳可兒 (4F03) 張令宜 (4F05) 何秀欣 (4F14) 潘美玲
第一章 会计信息系统 第一节 计算机会计概述.
Big Data Ecosystem – Hadoop Distribution
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
Some Knowledge of Machine Learning(1)
校园信息管理系统 河北科技大学网络中心 2000/4/10.
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
经济新闻集锦.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
小学《人•自然•社会》 五年级教材解读 浙江省教育厅教研室 李 荆 -
輕歌妙舞送黃昏 組員名單 組長:程鵬飛 組員:黎達華 劉展鵬 邱迦欣.
期考議題 單元一:資訊科技(eg上網活動)與人際關係 單元二:青少年社政參與(80後) 單元二:郊野公園與房屋政策/問題
大學多元入學方案 財務金融二 王詩茹.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
勞動權益 教師:黃益中.
房地产企业(项目)银行融资 授信工作指引 2007年版.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
第8章 系統架構.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
人地關係 ── 熱帶雨林 人文活動對環境的影響.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
For Project or Annual Report by Amanda
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
从共享交易到数据资源运营 ---数据堂数据共享服务实践
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
伯裘書院 環保廣告能否有效 地推動環保意識.
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
4H (1)歐宛曈 (9)李熹漩 (12)吳紀芙 (14)唐曉筠
Working with Databases (II) 靜宜大學資管系 楊子青
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
朝雲端專業DBA邁進: 深入剖析 Windows Azure SQL Database 完整資料庫管理、雲端報表建立、建置分散式雲端資料庫
Microsoft Project 2003 Gibson New Microsoft Enterprise Project
中国散裂中子源小角谱仪 的实验数据格式与处理算法 报告人:张晟恺 中国科学院高能物理研究所 SCE 年8月18日
JUNO数据模型设计和相关软件开发 李腾 黄性涛 山东大学 合肥 2018/12/2.
Studies on Higgs with the Final Sates of WW and bb
第九單元 Classes and data abstraction I
指導老師: 楊金山 班級: 電商四乙 姓名: 劉丞哲 學號: 4A155097
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
資料庫 靜宜大學資管系 楊子青.
Sensor Networks: Applications and Services
AWS雲端企業 馮治平 2016/10/06.
第一章 打开物理世界的大门.
5/4/2019 4:42 PM © 2009 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered.
運用無線射頻辨識系統(RFID) 降低土石流災害之研究
微信商城系统操作说明 色卡会智能门店.
行動應用App基本資安檢測實驗室 檢測服務說明
静电场中的无限大问题 物理无限远: 1、并非仅指场点到“无限远” 处的位移为无穷大
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
102學年度下學期 班親會 五年仁班 楊曉逸老師.
设岗申请 审核发布 岗位申请 助教培训 津贴发放 工作考核 授课教师 岗位要求 工作内容 开课单位 确定课程、岗位 发布需求 研究生
第二階段「校園徒步區建置」 執行成果報告.
105學年度第2學期 會計室業務重點宣導 106年3月8日.
大亚湾实验离线数据处理 何苗 中国科学院高能物理研究所 2017年6月6日 中国科学院成都情报文献中心.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
案例分析: THE NEXTGEN POS SYSTEM
聖經的獨特.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
Presentation transcript:

EventDB: 基于NoSQL的高能物理事例管理 程耀东 中科院高能所计算中心 chyd@ihep.ac.cn 2016-9-19

大规模半结构化数据管理关键技术及系统 科学大数据管理系统:课题四 问题 主要 内容 研究 目标 如何实现万亿级事例数据的高效管理和处理? 面向事例的大规模半结构化数据模型和存储结构 面向事例的大规模数据多维特征索引结构和查询技术 面向事例数据处理的并行与性能加速技术 与现有系统对接的数据服务接口标准与规范 主要 内容 研究 目标 大规模半结构化数据管理关键技术 高能物理事例数据管理系统 能实现对万亿级高能物理实验事例的管理,同等TCO条件下,典型场景应用(以的J/ψK+ K- π0衰变分析为例)性能提高50%(1400个/秒 2100个/秒)。

研究思路 万亿级事例 数据库 本项目:基于事例的数据管理 传统方式:基于文件的数据管理 基于单域的事例文件管理 跨域的事例数据管理 基于文件的事例读取与分析 基于事例的并行处理 基于文件的事例过滤和筛选 基于数据库的事例过滤和筛选 事例特征抽取 传统文件--》事例半结构化 事例索引、检索、缓存 事例文件 事例文件 事例文件 事例文件 传统方式:基于文件的数据管理 本项目:基于事例的数据管理

系统组成部分 新开发 EventDB (hbase) 事例基本信息:RunID, VersionID, EventID 物理变量:TAG 文件信息: FileID 事例索引 部分 文件基本信息:FileID 文件位置: SITE, PATH 物理意义:RunID, conditions, … FileDB (hbase/RDMS) ESD/DST: reconstructed hits, Reconstructed objects (tracks, vertices, jets, electrons, muons, etc.) ; Used by all Early Analysis, and by some detailed Analyses AOD: Reconstructed objects (tracks, vertices, jets, electrons, muons, etc.); Possible small quantities of very localized hit information; Used by most Physics Analysis TAG: event-level metadata for fast search and selection in a database; Self describing data, can be processed without any experiment code 文件索引/数据集 已有 事例文件 RAW, ESD/DST, AOD, TAG, … 事例文件 RAW, ESD/DST, AOD, TAG, … 分布式文件系统 Site A Site B

事例索引 为每个事例创建索引 调用NoSQL的接口,写入数据库 引入TagSet 实验组定义TAG组成 扫描DST等文件或者重建完成后产生索引信息 EventID, RunID, VersionID, FileID, TAG EventID是否可以作为唯一Event的唯一标识符? 调用NoSQL的接口,写入数据库 数据库建立多维索引 引入TagSet 单个用户在条件查找后,产生的结果生成一个TagSet,TagSet支持命 名,内容包含多个EventID 用户通过接口方便列出自己的“TagSet”,查看TagSet的基本属性, 比如事例数、事例的查询条件等 TagSet可以作为分析程序的输入参数 用户修改分析算法后,重用TagSet,不需要多次筛选事例 用户生成的样本不需要真正存储,节省空间 Event1 Tag1 Event2 Tag2 TagSet1 Event3 Tag3 TagSet2 Event4 Tag4

文件索引 数据集、File Catalogue、Bookkeeping 记录文件逻辑名(UUID)与物理名(Site:PATH)的对应关系 真实数据、模拟数据及其元数据 物理意义:刻度常数、运行状态、软件版本等 记录文件逻辑名(UUID)与物理名(Site:PATH)的对应关系 ATLAS、CMS等大型实验都开发了自己的数据集管理系统 ATLAS: AMI (Atlas Metadata Interface), DQ2 (Distributed Data Management) CMS: Global DBS (Dataset Bookkeeping Service) 挑战 物理路径可能会改变 所有产生的文件都需要与bookkeeping系统接口 任何的文件删除与移动都需要通知bookkeeping 文件数目与并发都很大,性能和可扩展性 一致性问题 如何解决 File Catalogue的功能,首先建立逻辑文件名与物理文件名的关系? 自动扫描分布式文件系统,填充基本的bookkeeping信息??

事例管理服务 基于事例索引和文件索引及文件存储建立事例索引服务 主要功能 主要提供如下几个接口 TAG管理 TAGSet管理 分布式文件管理、Bookkeeping管理 事例的缓存、传输与并行处理 主要提供如下几个接口 事例TAG创建/修改/删除接口: 管理员调用 事例TAG查询接口: 普通用户调用 事例ID到物理文件名的转换: 普通用户调用 TAGSet创建/查询/删除接口: 普通用户调用 TAGSet到物理文件名转换: 普通用户调用 物理分析程序Wrapper: 普通用户调用

主要功能组件 FileDB EventDB 用户分析脚本 数据传输服务器 Wrapper (eg TagBoss, …) 事例传输 并行传输 分块传输 xrootd FUSE EventDB Client 事例缓存 数据传输客户端 事例缓存 分布式文件系统 主站点 远程站点

用户使用流程 用户编写分析程序的脚本,筛选事例或者调用物理软件的Wrapper。这 个Wrapper支持以TagSet作为参数 Wrapper得到TagSet后,转换成包含Event的Root文件 得到EventID:通过EventDB Client查找TagSet对应的EventID列表 得到文件列表:将EventID列表作为参数调用数据传输客户端 数据传输客户端的工作 1)首先查找本地缓存,如果有缓存,就把缓存文件的路径返回给Wrapper 2)如果没有该EventID发到远程的数据传输服务器。 远程数据传输服务器的流程 查看调用者是否是“本地”,即是否是同一个站点,如果是同一个站点就将缓 存文件,或者直接调用FileDB得到包含EventID的文件路径发给数据传输客户端 如果调用者是“远程”,则从FileDB中得到包含EventID的文件,并从中抽取出相 应的Event,组成新的root文件,将文件内容发送到数据传输客户端。 3)判断远程传输服务器发送过来的是文件名还是文件内容,如果是文件名直接返回 给上层;如果是文件内容,则接收文件保存到本地缓存中,并把文件名返回给上层 Wrapper按照原有的模式调用物理软件,比如boss.exe,所有参数均不变 化,不需要任何修改,通过xrootd或者fuse直接访问文件

物理软件框架扩展 BOSS BEAN NuWa LoadStar EventDB Services 用户分析程序(筛选事例、数据分析…) 支持面向事例管理的功能 BOSS BEAN NuWa LoadStar 接口调用:1) Tag/TagSet管理; 2) 基于事例的数据传输 EventDB Services 需要标准化Event Services的接口 Event Service类似于一个中间件,物理软件框架类似于它的APP

方案的说明 独立于物理框架软件,用户可以直接调用 后期EventDB Services形成标准的接口,发布SDK,各个物理框架 软件可以集成该功能 为什么要使用EventDB Services? 筛选事例快 基于事例的SSD高速缓存,访问快 基于事例的传输,传输快 远程透明调用,使用灵活 支持MPI并行处理??