基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所
主要内容 背景概述 伏羲大数据平台简介 关键技术 系统能力
背景概述 食品安全 医疗卫生 金融服务 军事 交通环保 消费行业 气象 电子商务
伏羲大数据平台简介 应用 科研 网站 商业 网站 媒体 分析 股市 分析 第三方应用 数据管理 半结构和非结构存储(nosql数据库) 图数据库(neo4j) …… 分布式存储 数据 导入 数据 清洗 数据 存储 数据 开放 数据备份 志愿数据获取 接收数据服务器 任务生成、任务分发、 结果校验、结果存储 互联网 志愿者机器 任务获取、任务执行 结果上传、用户交互 Windows Linux MAC Andriod
关键技术 数据获取 mysql json 统一格式文本文件 txt .
关键技术 数据清洗 脏数据 空值 错误值 “” null <a>http://www.baidu.com</a></br> 脏数据 Sex:”” Age:”” Birthday:“1991” 空值 错误值 “” null 未指定内存地址 空指针异常
关键技术 数据存储 hdfs 小文件? 管理?
关键技术 小文件? 数据存储 Hdfs block size > n (n:hdfs可接受的一个很大的值) Hdfs block size < m (n:hdfs可接受的一个很小的值) 小文件?
关键技术 数据存储 hive sql sqoop partition 管理? mapreduce
关键技术 数据开放 大数据的战略意义不在于掌握了庞大的数据量,而在于如何 对这些数据进行专业的信息提取,从垃圾数据中高效、安全 的获取有价值的信息 3亿微博用户关注列表信息 hbase 微博用户粉丝列表 根据不同的数据类型、不同的应用需求确定使用某一种数据 库,达到简化问题、提高系统效率的目的 ? * 3亿微博用户关注列表信息 根据hbase的可伸缩性
关键技术 数据备份 伏羲大数据平台数据备份的主要目的是保证datanode出错后 数据的完整性,目前主要利用hadoop提供的两种备份方式: Secondary NameNode 元数据备份 Datanode冗余备份
系统能力
谢谢