数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 2011-11-11 BEA Confidential.

Slides:



Advertisements
Similar presentations
四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
第六章 人体生命活动的调节 人体对外界环境的感知.
上海市科技创业中心 (上海市高新技术成果转化服务中心) (上海市火炬高技术产业开发中心)
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
爱国卫生工作的持续发展 区爱卫办 俞贞龙.
第八章 数学活动 方程组图象解法和实际应用
本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响. 本课内容提要 一、汇率的含义 二、汇率变化与币值的关系 三、汇率变化的影响.
散文鉴赏方法谈.
105學年度國民中學技藝教育 專案編班申辦說明會
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
大專校院學校衛生工作 規劃與推動 國立臺灣師範大學 郭鐘隆教授.
基于Hadoop的Map/Reduce框架研究报告
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
海洋—21世纪的希望 BEA Confidential. | 1.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Introduction to MapReduce
YARN & MapReduce 2.0 Boyu Diao
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
云计算之分布式计算.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
CHAPTER 6 認識MapReduce.
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
致 理 科 技 大 學 「106年大專校院弱勢學生助學計畫」 說 明 會 中 華 民 國 106 年 9 月 13日.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
基于MapReduce的Join算法优化
时政要闻 德国还清一战赔款.
Cloud Computing Google云计算原理.
103年度 大專院校校外實習學生 團體保險 第一產物保險股份有限公司 營業二部 蔡承瑋 1.
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
Presentation transcript:

数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 2011-11-11 BEA Confidential

提要: 数据采集介绍 分布式Hadoop概述 待解决的问题 QA huangwenjun@ipp.ac.cn BEA Confidential

数据采集介绍 1 2 3 4 5 数据采集流程 采集影响因子 远程采集控制系统 时间片数据采集单元(lzo和mdsplus) 分布式数据服务系统 5 huangwenjun@ipp.ac.cn BEA Confidential

数据采集流程 ——物理模型 数据采集系统由数据采集控制系统、数据采集系统和数据服务系统三个部分组成各系统之间通过以太网络连接,进行控制参数和实验数据的传递和交互结。 9999 数字量 模拟量 lzo huangwenjun@ipp.ac.cn BEA Confidential

总控系统根据各子系统返回的状态信息判断是否进入下一炮等待状态 时序模型 总控系统根据各子系统返回的状态信息判断是否进入下一炮等待状态 炮号、预放电时间及触发时刻 发送控制参数到各数据采集单元 返回就绪状态给数据采集控制系统 时钟和触发 -100ms -30s 如果在采集过程中检测到等离子体电流消失,数据采集控制系统立即发送停止信号至各数据采集单元 需要延迟采集的数据采集单元按设置时间完成采集后停止,不需要延迟的数据采集单元立刻停止采集。 huangwenjun@ipp.ac.cn

采集影响因子 灵活性 可靠性和实时性 准确性 一部分的诊断信号通过屏蔽电缆送入采集机房,经隔离和放大处理后再输入数据采集单元采集; 另一部分诊断信号要求短距离传输,对这些信号进行采集这些信号从EAST装置的传感器出来,经过放大器,然后由现场采集系统进行采集 (如近60道较微弱的软X射线信号) 可靠性和实时性 对于各重要诊断信号的变化情况,需要实时获取,以便对控制系统相应参数进行调整,从而维持等离子体平衡,获得理想的放电结果 准确性 根据采样定理,要使信号不失真,采样周期不能大于信号周期的一半,所以采样频率至少是信号频率两倍。 为了提高准确性,有时需要高达10倍,20倍

数据采集控制系统 思想源泉: 由于数据采集的灵活性,有效地管理和控制这些数据采集单元,采用分而治之思想。 在总控系统与数据采集单元之间构建数据采集控制系统。 这样,数据采集控制系统、数据采集单元及两者之间的通信接口组成了一套DCS系统 需求分析: 对不同采集单元参数设定,如采集频率、触发时刻等 能监视系统状态(使能状态,就绪状态,完成状态) C++ Bulider模式状态监视 Epics

时间片数据采集单元 --问题研究 数据采集单元在硬件上由相对独立的计算机和数据采集卡; 在软件上由不同的操作系统和数据采集软件系统组成 时间片数据采集单元 --问题研究 数据采集单元在硬件上由相对独立的计算机和数据采集卡; 在软件上由不同的操作系统和数据采集软件系统组成 长脉冲采集面临的问题:采集,压缩,传输,存储 对采集卡内存 数据分析与可视化软件都是将实验数据获取到本机内存中进行分析和处理 数据发布速度要求 单通道采集频率250KHz的信号,持续采集1000s信号文件为500MB,压缩后信号文件约为200MB,以最高速度获取10道数据所需的时间约为, 时间片机制(Ts=5秒时间片进行划分, 采集程序针对5s的时间片在计算机内存中开辟了三块的内存区域,前两块为循环缓冲的两个分区DataBuf1和DataBuf2,后一块为传输缓冲TransBuf。)

时间片数据采集单元 --lzo huangwenjun@ipp.ac.cn BEA Confidential

时间片数据采集单元 -- Mdsplus huangwenjun@ipp.ac.cn BEA Confidential

时间片数据采集单元 --mdsplus Mdsplus本地存储 Mdsplus服务器端 实时存储 本地存储: 一个线程:83,78 两个线程: 32,30,39 异地NFS存储: (同步) 一个线程:26,30,32 两个线程: 18 (异步) 一个线程:41 两个线程: 22 Mdsplus服务器端 实时存储

将接收到的HeadInfo作为第0个时间片数据写入临时文件 数据服务系统(lzo存储) 存储:以文件方式将数据分布存储于多台基于Linux平台的数据服务器中,并通过建立索引服务器来定位数据文件的位置。 部分信号还将通过中间件转存到MDSplus服务器或送入二级库服务器进行计算,供物理人员分析诊断。 Pipe TRANS程序 COMPRESS程序 Lzo 数据 data Temp 文件 将接收到的HeadInfo作为第0个时间片数据写入临时文件 COMPRESS读取临时数据文件,按照采集通道进行解析, 并依次对各通道数据进行格式转换和数据压缩,再将压缩数据按照规定的格式进行最后的数据存储 访问:在数据服务器上,运行了数据访问接口程序GATE,来实现服务器与EAST-Scope用户的数据交互。 huangwenjun@ipp.ac.cn BEA Confidential

Hadoop框架 Hadoop 核心部分: Hadoop分布式文件系统(Hdfs) Map-Reduce框架, 基于核心的其它产品 Hbase(MapReduce和海量数据存储) Hadoop huangwenjun@ipp.ac.cn BEA Confidential

Hadoop框架 1 2 3 4 5 Hadoop框架理论基础 Hadoop架构 HDFS文件系统 Map/Reduce 应用场景 huangwenjun@ipp.ac.cn BEA Confidential

Hadoop框架理论基础 Google GFS文件系统: 一个面向大规模数据密集型应用的、可伸缩的、高度容错网络化的分布式文件系统。,主要chunkserver是由一个master(主)和众多chunkserver(大块设备)构成的。 Bigtable: Google的分布式的结构化数据存储系统,用户可以动态的控制数据的分布和格式 多级映射的数据结构 结构上分为两部分:其一是Master节点,支持负载均衡。其二是Tablet节点,存储数据库的分片tablet,并提供相应的数据访问,对压缩有很好的支持。 MapReduce: 一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。程序开发者不需要像普通并行程序开发(共享内存模型和网络互联模型)设置barrier节点

Hadoop架构 结点 data Datanodeprotocol协议 masters (一个或两个) ClientProtocol协议 Datanodeprotocol协议 data 结点 masters (一个或两个) 一台机器被指定为 NameNode(Hadoop文件系统) 另一台不同的机器被指定为JobTracker (Map/Reduce) 其他为slaves 余下的机器即作为DataNode (Hadoop文件系统) 也作为TaskTracker(Map/Reduce)

HDFS文件系统 Namenode和Datanode 优势保证 文件和目录的权限模型 Namenode:是所有HDFS元数据的仲裁者和管理者。执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。也负责确定数据块到具体Datanode节点的 映射。 Namenode管理文件系统的元数据, Datanode真正处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。Datanode存储了实际的数据 Namenode从所有的 Datanode接收心跳信号和块状态报告。块状态报告包括了某个Datanode所有的数据块列表。 优势保证 副本机制(默认,副本系数是3:本地节点,同一机架的另一个节点上,不同机架的节点上) 机架感知(rack-aware)策略:提高数据的可靠性、可用性和网络带宽的利用率 EditLog事务日志 (edits)、FsImage的文件和检查点(checkpoint)) 文件和目录的权限模型

Reduce输出的结果写入输出目录的文件中 Map/Reduce模型 Input Map Output Reduce 调用用户自定义的Map函数处理每一个<key, value> 键值对,生成一批新的中间<key, value> 键值对,这两组键值对的类型可能不同。 Shuffle :为了保证Reduce的输入是Map排好序的输出。在Shuffle阶段,框架通过HTTP为每个Reduce获得所有Map输出中与之相关的<key, value> 键值对; Sort,框架将按照key的值对Reduce的输入进行分组 输入数据集的路径 框架把作业的输入看为是一组<key, value> 键值对送给Map 此阶段会遍历中间数据, 对每一个唯一key,执行 用户自定义的Reduce函数 输出新的<key, value> 键值对 Reduce输出的结果写入输出目录的文件中 BEA Confidential

Example DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 这些拷贝工作被分配给多个map任务, 然后每个TaskTracker分别执行从nn1到nn2的拷贝操作 每个TaskTracker必须都能够与源端和目的端文件系统进行访问和交互。

待解决的问题 如何解决工控机的瓶颈 如何将系统做的更标准化 除了分片采集,是不是还有其他的采集方式?(间歇采样,变频采样) 当cpu使用率过高时,如何降低cpu使用率? 当采用服务器模式采集时,如何摆脱网络传输的限制? 如何将系统做的更标准化 Epics采集控制台的完善 Mdsplus存储的完善 整个体系结构的完善(客户机-服务器结构——分布式体系结构)

Thank You ! BEA Confidential