基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.

Slides:



Advertisements
Similar presentations
许瑞云医师 你已经很努力地注意饮食、作息、运动, 为什么身体还不能恢复健康 ? 细节 答案就在「 细节 」裡, 唯有掌握关键的一步, 养生才能达到真 正的功效 ! 现在就让我们跟着曾是全球知名的哈 佛医院主治医师的许瑞云, 学习最正确 的养生方法, 轻松打下健康满分的基础 !
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
协同数据管理及数据分析专家 2013 年 07 月 通达智能报表中心. 第二章 引子 第四章 领先优势 第五章 应用领域 第六章 案例分享 第三章 产品介绍 第一章 通达信科综合实力 第七章 客户名单(部分) 第八章 系统演示.
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
职业指导服务系统 欢迎了解职业指导服务系统!
中华字库的云输入法 王勇 基础软件国家工程研究中心
高级软件工程 复习课.
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
文賢國小101年度上半年在職教師資訊應用培訓 ----自由軟體系列 輕鬆學會做 -Scratch 教材設計:林森富老師.
龙芯多媒体电脑教室培训 龙梦极域电子教室 江苏龙芯梦兰科技股份有限公司.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
应用性能管理提升客户体验 龙珠客户案例分享 肖澍 云智慧公司.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
提高自身素质做好 新时期班主任工作 北京市广渠门中学 高金英.
資料庫系統 曾俊雄.
普通话模拟测试 与学习平台 使用指南.
香港普通話研習社科技創意小學 周順強老師.
云计算业务应用-数据挖掘.
巨量資料平台: Hadoop的生態系.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
《大数据技术原理与应用》 课程介绍 (2016春季学期)
網路小說劇情建構與伏線營造 Windows98.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
关于整合检验检测认证机构实施意见的通知(国办发〔2014〕8号)
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
数据创造价值、创新驱动未来 浅析高校大数据建设方法 演讲人:伍剑 时间:
推进德育创新 做好新时期班主任工作 北京市广渠门中学 高金英.
一种基于Hadoop的视频大数据分布式解码方法 冯强
基于hadoop与hive的大数据分析体系构建
第5章 NoSQL数据库 (PPT版本号:2017年2月版本)
NoSQL分布式数据库.
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
厦门大学数据库实验室NoSQL系列学习之
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
云计算之分布式计算.
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
組員:陳俊宇 陳典杰 趙俊閔 指導老師:張慶寶
精通redis数据库开发、管理与优化 第1讲 什么是redis 讲师:黄锡峰.
第九讲 Hadoop架构再探讨 (2016春季学期)
Hadoop平台與應用規劃實作 報告者:劉育維.
Haiwell Cloud 海为云介绍.
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
天涯分布式数据库 云计算部.
斯坦福大学调研 蒋达晟.
应用型本科院校大数据专业 实践教学环境改革与探索
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
雲端導覽系統專題報告 指導老師:江茂綸 老師 報告者:涂凱翔 組長: 洪梓奇 組員: 林昭宏
架构师成长感悟 吴隆烽
厦门大学数据库实验室 2014暑期奋战70天总结 罗道文
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
104 四技二專甄選入學 簡章解析 輔導室 何乙娟.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所

主要内容 背景概述 伏羲大数据平台简介 关键技术 系统能力

背景概述 食品安全 医疗卫生 金融服务 军事 交通环保 消费行业 气象 电子商务

伏羲大数据平台简介 应用 科研 网站 商业 网站 媒体 分析 股市 分析 第三方应用 数据管理 半结构和非结构存储(nosql数据库) 图数据库(neo4j) …… 分布式存储 数据 导入 数据 清洗 数据 存储 数据 开放 数据备份 志愿数据获取 接收数据服务器 任务生成、任务分发、 结果校验、结果存储 互联网 志愿者机器 任务获取、任务执行 结果上传、用户交互 Windows Linux MAC Andriod

关键技术 数据获取 mysql json 统一格式文本文件 txt .

关键技术 数据清洗 脏数据 空值 错误值 “” null <a>http://www.baidu.com</a></br> 脏数据 Sex:”” Age:”” Birthday:“1991” 空值 错误值 “” null 未指定内存地址 空指针异常

关键技术 数据存储 hdfs 小文件? 管理?

关键技术 小文件? 数据存储 Hdfs block size > n (n:hdfs可接受的一个很大的值) Hdfs block size < m (n:hdfs可接受的一个很小的值) 小文件?

关键技术 数据存储 hive sql sqoop partition 管理? mapreduce

关键技术 数据开放 大数据的战略意义不在于掌握了庞大的数据量,而在于如何 对这些数据进行专业的信息提取,从垃圾数据中高效、安全 的获取有价值的信息 3亿微博用户关注列表信息 hbase 微博用户粉丝列表 根据不同的数据类型、不同的应用需求确定使用某一种数据 库,达到简化问题、提高系统效率的目的 ? * 3亿微博用户关注列表信息 根据hbase的可伸缩性

关键技术 数据备份 伏羲大数据平台数据备份的主要目的是保证datanode出错后 数据的完整性,目前主要利用hadoop提供的两种备份方式: Secondary NameNode 元数据备份 Datanode冗余备份

系统能力

谢谢