Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:2010-05-26 1.

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
中华字库的云输入法 王勇 基础软件国家工程研究中心
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
云计算突飞猛进.
基于Hadoop的Map/Reduce框架研究报告
資料庫系統 曾俊雄.
Ch.8. 基于MapReduce的图算法 MapReduce海量数据并行处理
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
巨量資料平台: Hadoop的生態系.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
《大数据技术原理与应用》 课程介绍 (2016春季学期)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
云梯的多namenode和跨机房之路
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
Canal开源产品介绍 taobao.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
Map-Reduce Programming
第二章 JAVA语言基础.
商品学 高学芹.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Introduction to MapReduce
YARN & MapReduce 2.0 Boyu Diao
基于R和pentaho的全套开源BI平台的实现
Alibaba 数据库高可用架构 Alibaba
厦门大学数据库实验室NoSQL系列学习之
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Hadoop MapReduce Hadoop Map-Reduce is a software framework for easily writing applications.
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
崑山科技大學資訊管理系 伺服網頁程式設計 系統開發細部流程 教師:游峰碩.
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
西南科技大学网络教育系列课程 高级语程序设计(Java) 第五章 继承、接口与范型.
厦门大学数据库实验室 MapReduce 连接
Hadoop平台與應用規劃實作 報告者:劉育維.
Cloud Computing MapReduce进阶.
Map Reduce Programming
从TDW-Hive到TDW-SparkSQL
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
9.1 程式偵錯 9.2 捕捉例外 9.3 自行拋出例外 9.4 自定例外類別 9.5 多執行緒
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
C/C++/Java 哪些值不是头等程序对象
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
JAVA 编 程 技 术 主编 贾振华 2010年1月.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于MapReduce的Join算法优化
Presentation transcript:

Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:2010-05-26 1

Outline Hadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理 常见问题及解决方案 2

关于打扑克的哲学

打扑克与MapReduce 分牌 各自齐牌 再次理牌 搞定 交换 Input split shuffle output

统计单词数 a 1 the 1 weather 1 is 1 good 1 The weather good 1 is good a 1 today 1 is 1 good 1 Today is good guy 1 guy 1 is 4 is 1 this 1 guy 1 is 1 a 1 good 1 man 1 man 2 This guy is a good man the 1 man 1 this 1 the 1 today 1 good 1 man 1 is 1 this 1 Good man is good weather 1 today 1 weather 1

流量计算 6 6

趋势分析 http://www.trendingtopics.org/截图 7 7 7

用户推荐 8 8 8

分布式索引 9 9 9

Hadoop生态系统 Hadoop 核心 并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper Hadoop Common 分布式文件系统HDFS MapReduce框架 并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper 数据仓库Hive(使用SQL) Hadoop日志分析工具Chukwa

Hadoop实现 Hadoop Cluster Data Results MAP Reduce DFS Block 1 Data data data data data Results Data data data data

作业执行流程

Hadoop案例(1) // MapClass1中的map方法 public void map(LongWritable Key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\""); String mid = strList[3]; String sid = strList[4]; String timestr = strList[0]; try{ timestr = timestr.substring(0,10); }catch(Exception e){return;} timestr += "0000"; // 省略数十行 output.collect(new Text(mid + “\”” + “sid\”” + timestr , ...); }

Hadoop案例(2) public static class Reducer1 extends MapReduceBase implements Reducer<Text, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String[] t = key.toString().split("\""); word.set(t[0]);// str.set(t[1]); output.collect(word,str);//uid kind }//reduce }//Reduce0b

Hadoop案例(3) public static class MapClass2 extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\\s+"); word.set(strList[0]); str.set(strList[1]); output.collect(word,str); }

Hadoop案例(4) public static class Reducer2 extends MapReduceBase implements Reducer<Text, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { while(values.hasNext()) { String t = values.next().toString(); // 省略数十行代码 } output.collect(new Text(mid + “\”” + sid + “\””) + ...., ...)

Thinking in MapReduce(1) B C A Filter Co-group A B D Group Filter B C D Function C Aggregate

Thinking in MapReduce(2)

SELECT COUNT(DISTINCT mid) FROM log_table Hive的魔力 Magics of Hive: SELECT COUNT(DISTINCT mid) FROM log_table

为什么淘宝采用Hadoop? webalizer awstat 般若 Atpanel时代 Hadoop时代 日志最高达250GB/天 最高达约50道作业 每天运行20小时以上 Hadoop时代 当前日志470GB/天 当前366道作业 平均6~7小时完成 21

还有谁在用Hadoop? 雅虎北京全球软件研发中心 中国移动研究院 英特尔研究院 金山软件 百度 腾讯 新浪 搜狐 IBM Facebook Amazon Yahoo!

Web站点的典型Hadoop架构 Web Servers Log Collection Servers Filers Data Warehousing on a Cluster Oracle RAC Federated MySQL 23

淘宝Hadoop与Hive的使用 Scheduler Thrift Server Rich Client Client Program Web Server CLI/GUI MetaStore Server Web Mysql JobClient

调试 标准输出,标准出错 Web显示(50030, 50060, 50070) NameNode,JobTracker, DataNode, TaskTracker日志 本地重现: Local Runner DistributedCache中放入调试代码

Profiling 目的:查性能瓶颈,内存泄漏,线程死锁等 工具: jmap, jstat, hprof,jconsole, jprofiler mat,jstack 对JobTracker的Profile 对各slave节点TaskTracker的Profile 对各slave节点某Child进程的Profile(可能存 在单点执行速度过慢)

监控 目的:监控集群或单个节点I/O, 内存及CPU 工具: Ganglia

如何减少数据搬动? 28 28 28

数据倾斜 29 29 29