Presentation is loading. Please wait.

Presentation is loading. Please wait.

数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 2011-11-11 BEA Confidential.

Similar presentations


Presentation on theme: "数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 2011-11-11 BEA Confidential."— Presentation transcript:

1 数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential

2 提要: 数据采集介绍 分布式Hadoop概述 待解决的问题 QA huangwenjun@ipp.ac.cn
BEA Confidential

3 数据采集介绍 1 2 3 4 5 数据采集流程 采集影响因子 远程采集控制系统 时间片数据采集单元(lzo和mdsplus)
分布式数据服务系统 5 BEA Confidential

4 数据采集流程 ——物理模型 数据采集系统由数据采集控制系统、数据采集系统和数据服务系统三个部分组成各系统之间通过以太网络连接,进行控制参数和实验数据的传递和交互结。 9999 数字量 模拟量 lzo BEA Confidential

5 总控系统根据各子系统返回的状态信息判断是否进入下一炮等待状态
时序模型 总控系统根据各子系统返回的状态信息判断是否进入下一炮等待状态 炮号、预放电时间及触发时刻 发送控制参数到各数据采集单元 返回就绪状态给数据采集控制系统 时钟和触发 -100ms -30s 如果在采集过程中检测到等离子体电流消失,数据采集控制系统立即发送停止信号至各数据采集单元 需要延迟采集的数据采集单元按设置时间完成采集后停止,不需要延迟的数据采集单元立刻停止采集。

6 采集影响因子 灵活性 可靠性和实时性 准确性 一部分的诊断信号通过屏蔽电缆送入采集机房,经隔离和放大处理后再输入数据采集单元采集;
另一部分诊断信号要求短距离传输,对这些信号进行采集这些信号从EAST装置的传感器出来,经过放大器,然后由现场采集系统进行采集 (如近60道较微弱的软X射线信号) 可靠性和实时性 对于各重要诊断信号的变化情况,需要实时获取,以便对控制系统相应参数进行调整,从而维持等离子体平衡,获得理想的放电结果 准确性 根据采样定理,要使信号不失真,采样周期不能大于信号周期的一半,所以采样频率至少是信号频率两倍。 为了提高准确性,有时需要高达10倍,20倍

7 数据采集控制系统 思想源泉: 由于数据采集的灵活性,有效地管理和控制这些数据采集单元,采用分而治之思想。
在总控系统与数据采集单元之间构建数据采集控制系统。 这样,数据采集控制系统、数据采集单元及两者之间的通信接口组成了一套DCS系统 需求分析: 对不同采集单元参数设定,如采集频率、触发时刻等 能监视系统状态(使能状态,就绪状态,完成状态) C++ Bulider模式状态监视 Epics

8 时间片数据采集单元 --问题研究 数据采集单元在硬件上由相对独立的计算机和数据采集卡; 在软件上由不同的操作系统和数据采集软件系统组成
时间片数据采集单元 --问题研究 数据采集单元在硬件上由相对独立的计算机和数据采集卡; 在软件上由不同的操作系统和数据采集软件系统组成 长脉冲采集面临的问题:采集,压缩,传输,存储 对采集卡内存 数据分析与可视化软件都是将实验数据获取到本机内存中进行分析和处理 数据发布速度要求 单通道采集频率250KHz的信号,持续采集1000s信号文件为500MB,压缩后信号文件约为200MB,以最高速度获取10道数据所需的时间约为, 时间片机制(Ts=5秒时间片进行划分, 采集程序针对5s的时间片在计算机内存中开辟了三块的内存区域,前两块为循环缓冲的两个分区DataBuf1和DataBuf2,后一块为传输缓冲TransBuf。)

9 时间片数据采集单元 --lzo BEA Confidential

10 时间片数据采集单元 -- Mdsplus BEA Confidential

11 时间片数据采集单元 --mdsplus Mdsplus本地存储 Mdsplus服务器端 实时存储 本地存储: 一个线程:83,78
两个线程: 32,30,39 异地NFS存储: (同步) 一个线程:26,30,32 两个线程: 18 (异步) 一个线程:41 两个线程: 22 Mdsplus服务器端 实时存储

12 将接收到的HeadInfo作为第0个时间片数据写入临时文件
数据服务系统(lzo存储) 存储:以文件方式将数据分布存储于多台基于Linux平台的数据服务器中,并通过建立索引服务器来定位数据文件的位置。 部分信号还将通过中间件转存到MDSplus服务器或送入二级库服务器进行计算,供物理人员分析诊断。 Pipe TRANS程序 COMPRESS程序 Lzo 数据 data Temp 文件 将接收到的HeadInfo作为第0个时间片数据写入临时文件 COMPRESS读取临时数据文件,按照采集通道进行解析, 并依次对各通道数据进行格式转换和数据压缩,再将压缩数据按照规定的格式进行最后的数据存储 访问:在数据服务器上,运行了数据访问接口程序GATE,来实现服务器与EAST-Scope用户的数据交互。 BEA Confidential

13 Hadoop框架 Hadoop 核心部分: Hadoop分布式文件系统(Hdfs) Map-Reduce框架, 基于核心的其它产品
Hbase(MapReduce和海量数据存储) Hadoop BEA Confidential

14 Hadoop框架 1 2 3 4 5 Hadoop框架理论基础 Hadoop架构 HDFS文件系统 Map/Reduce 应用场景
BEA Confidential

15 Hadoop框架理论基础 Google GFS文件系统:
一个面向大规模数据密集型应用的、可伸缩的、高度容错网络化的分布式文件系统。,主要chunkserver是由一个master(主)和众多chunkserver(大块设备)构成的。 Bigtable: Google的分布式的结构化数据存储系统,用户可以动态的控制数据的分布和格式 多级映射的数据结构 结构上分为两部分:其一是Master节点,支持负载均衡。其二是Tablet节点,存储数据库的分片tablet,并提供相应的数据访问,对压缩有很好的支持。 MapReduce: 一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。程序开发者不需要像普通并行程序开发(共享内存模型和网络互联模型)设置barrier节点

16 Hadoop架构 结点 data Datanodeprotocol协议 masters (一个或两个)
ClientProtocol协议 Datanodeprotocol协议 data 结点 masters (一个或两个) 一台机器被指定为 NameNode(Hadoop文件系统) 另一台不同的机器被指定为JobTracker (Map/Reduce) 其他为slaves 余下的机器即作为DataNode (Hadoop文件系统) 也作为TaskTracker(Map/Reduce)

17 HDFS文件系统 Namenode和Datanode 优势保证 文件和目录的权限模型
Namenode:是所有HDFS元数据的仲裁者和管理者。执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。也负责确定数据块到具体Datanode节点的 映射。 Namenode管理文件系统的元数据, Datanode真正处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。Datanode存储了实际的数据 Namenode从所有的 Datanode接收心跳信号和块状态报告。块状态报告包括了某个Datanode所有的数据块列表。 优势保证 副本机制(默认,副本系数是3:本地节点,同一机架的另一个节点上,不同机架的节点上) 机架感知(rack-aware)策略:提高数据的可靠性、可用性和网络带宽的利用率 EditLog事务日志 (edits)、FsImage的文件和检查点(checkpoint)) 文件和目录的权限模型

18 Reduce输出的结果写入输出目录的文件中
Map/Reduce模型 Input Map Output Reduce 调用用户自定义的Map函数处理每一个<key, value> 键值对,生成一批新的中间<key, value> 键值对,这两组键值对的类型可能不同。 Shuffle :为了保证Reduce的输入是Map排好序的输出。在Shuffle阶段,框架通过HTTP为每个Reduce获得所有Map输出中与之相关的<key, value> 键值对; Sort,框架将按照key的值对Reduce的输入进行分组 输入数据集的路径 框架把作业的输入看为是一组<key, value> 键值对送给Map 此阶段会遍历中间数据, 对每一个唯一key,执行 用户自定义的Reduce函数 输出新的<key, value> 键值对 Reduce输出的结果写入输出目录的文件中 BEA Confidential

19 Example DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。
它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 这些拷贝工作被分配给多个map任务, 然后每个TaskTracker分别执行从nn1到nn2的拷贝操作 每个TaskTracker必须都能够与源端和目的端文件系统进行访问和交互。

20 待解决的问题 如何解决工控机的瓶颈 如何将系统做的更标准化 除了分片采集,是不是还有其他的采集方式?(间歇采样,变频采样)
当cpu使用率过高时,如何降低cpu使用率? 当采用服务器模式采集时,如何摆脱网络传输的限制? 如何将系统做的更标准化 Epics采集控制台的完善 Mdsplus存储的完善 整个体系结构的完善(客户机-服务器结构——分布式体系结构)

21 Thank You ! BEA Confidential


Download ppt "数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 2011-11-11 BEA Confidential."

Similar presentations


Ads by Google