Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：2010-05-26 1.

Slides:

Advertisements

Similar presentations

大数据基础技术和应用. 大纲大数据概述大数据基础技术工程技术策略技术典型应用我们处于数据爆炸的时代数据库文字记录照片线下数据信息化网页数据用户行为记录数字图像互联网 - 移动互联网设备监控智能家居摄像头传感器地球上至今总共的数据量：在 2006 年，个人用户才刚刚迈.

Advertisements

课程介绍（PPT版本号：2016年1月24日版本）温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字林子雨

中华字库的云输入法王勇基础软件国家工程研究中心

Big Data Ecosystem – Hadoop Distribution

大數據的學習路線目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集樣本的儲存樣本的處理

淘宝海量数据产品技术架构张轩丞（朋春）淘宝网-数据平台与产品部.

高一年级过渡性学习活动汇报高一年级组教科研室汉滨高中.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

“大云”大数据平台及应用中国移动通信研究院郭磊涛 2013年11月.

穆公(朱金清微博：淘穆公阿里HBase业务设计实践穆公(朱金清微博：淘穆公

E-Mapreduce培训系列基本介绍.

云计算突飞猛进.

基于Hadoop的Map/Reduce框架研究报告

資料庫系統曾俊雄.

Ch.8. 基于MapReduce的图算法 MapReduce海量数据并行处理

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

云计算业务应用-数据挖掘.

巨量資料平台： Hadoop的生態系.

11.3 国产大数据库技术阿里巴巴OceanBase 云创存储数据立方（DataCube）

《大数据技术原理与应用》课程介绍（2016春季学期）

台灣雲端運算應用實驗中心研發計畫計畫期間：自98年7月1日至99年6月30日止執行單位名稱：財團法人資訊工業策進會國立中山大學.

云梯的多namenode和跨机房之路

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

Canal开源产品介绍 taobao.

为教师开展大数据课程教学提供全方位、一站式服务

基于hadoop的数据仓库技术.

Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：

Map-Reduce Programming

第二章 JAVA语言基础.

商品学高学芹.

一种基于Hadoop的视频大数据分布式解码方法冯强

Introduction to MapReduce

YARN & MapReduce 2.0 Boyu Diao

基于R和pentaho的全套开源BI平台的实现

Alibaba 数据库高可用架构 Alibaba

厦门大学数据库实验室NoSQL系列学习之

第3章分布式文件系统HDFS （PPT版本号：2017年2月版本）

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

云计算之分布式计算.

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Hadoop MapReduce Hadoop Map-Reduce is a software framework for easily writing applications.

基于Hadoop的数据仓库Hive.

實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務

《大数据技术原理与应用》第七章 MapReduce （2016春季学期）林子雨厦门大学计算机科学系主页：

崑山科技大學資訊管理系伺服網頁程式設計系統開發細部流程教師：游峰碩.

第九讲 Hadoop架构再探讨（2016春季学期）

CHAPTER 6 認識MapReduce.

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

西南科技大学网络教育系列课程高级语程序设计(Java) 第五章继承、接口与范型.

厦门大学数据库实验室 MapReduce 连接

Hadoop平台與應用規劃實作報告者：劉育維.

Cloud Computing MapReduce进阶.

Map Reduce Programming

从TDW-Hive到TDW-SparkSQL

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

Homework 1(上交时间：10月14号) 倒排索引.

大数据管理技术 --NoSQL数据库 HBase 陈辉大数据分析技术.

9.1 程式偵錯 9.2 捕捉例外 9.3 自行拋出例外 9.4 自定例外類別 9.5 多執行緒

软件工程基础云计算概论刘驰.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

大数据与物流沈庆琼物流教研室.

C/C++/Java 哪些值不是头等程序对象

斯坦福大学调研蒋达晟.

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

JAVA 编程技术主编贾振华 2010年1月.

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

密级：亿赞普Hadoop应用浅析 IZP 肖燕京.

基于MapReduce的Join算法优化

Presentation transcript:

Hadoop与数据分析淘宝数据平台及产品部基础研发组周敏日期：2010-05-26 1

Outline Hadoop基本概念 Hadoop的应用范围 Hadoop底层实现原理 Hive与数据分析 Hadoop集群管理常见问题及解决方案 2

关于打扑克的哲学

打扑克与MapReduce 分牌各自齐牌再次理牌搞定交换 Input split shuffle output

统计单词数 a 1 the 1 weather 1 is 1 good 1 The weather good 1 is good a 1 today 1 is 1 good 1 Today is good guy 1 guy 1 is 4 is 1 this 1 guy 1 is 1 a 1 good 1 man 1 man 2 This guy is a good man the 1 man 1 this 1 the 1 today 1 good 1 man 1 is 1 this 1 Good man is good weather 1 today 1 weather 1

流量计算 6 6

趋势分析 http://www.trendingtopics.org/截图 7 7 7

用户推荐 8 8 8

分布式索引 9 9 9

Hadoop生态系统 Hadoop 核心并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper Hadoop Common 分布式文件系统HDFS MapReduce框架并行数据分析语言Pig 列存储NoSQL数据库 Hbase 分布式协调器Zookeeper 数据仓库Hive(使用SQL) Hadoop日志分析工具Chukwa

Hadoop实现 Hadoop Cluster Data Results MAP Reduce DFS Block 1 Data data data data data Results Data data data data

作业执行流程

Hadoop案例(1) // MapClass1中的map方法 public void map(LongWritable Key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\""); String mid = strList[3]; String sid = strList[4]; String timestr = strList[0]; try{ timestr = timestr.substring(0,10); }catch(Exception e){return;} timestr += "0000"; // 省略数十行 output.collect(new Text(mid + “\”” + “sid\”” + timestr , ...); }

Hadoop案例(2) public static class Reducer1 extends MapReduceBase implements Reducer<Text, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String[] t = key.toString().split("\""); word.set(t[0]);// str.set(t[1]); output.collect(word,str);//uid kind }//reduce }//Reduce0b

Hadoop案例(3) public static class MapClass2 extends MapReduceBase implements Mapper<LongWritable, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void map(LongWritable Key, Text value, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { String strLine = value.toString(); String[] strList = strLine.split("\\s+"); word.set(strList[0]); str.set(strList[1]); output.collect(word,str); }

Hadoop案例(4) public static class Reducer2 extends MapReduceBase implements Reducer<Text, Text, Text, Text> { private Text word = new Text(); private Text str = new Text(); public void reduce(Text key, Iterator<Text> values, OutputCollector<Text, Text> output, Reporter reporter) throws IOException { while(values.hasNext()) { String t = values.next().toString(); // 省略数十行代码 } output.collect(new Text(mid + “\”” + sid + “\””) + ...., ...)

Thinking in MapReduce(1) B C A Filter Co-group A B D Group Filter B C D Function C Aggregate

Thinking in MapReduce(2)

SELECT COUNT(DISTINCT mid) FROM log_table Hive的魔力 Magics of Hive: SELECT COUNT(DISTINCT mid) FROM log_table

为什么淘宝采用Hadoop? webalizer awstat 般若 Atpanel时代 Hadoop时代日志最高达250GB/天最高达约50道作业每天运行20小时以上 Hadoop时代当前日志470GB/天当前366道作业平均6~7小时完成 21

还有谁在用Hadoop? 雅虎北京全球软件研发中心中国移动研究院英特尔研究院金山软件百度腾讯新浪搜狐 IBM Facebook Amazon Yahoo!

Web站点的典型Hadoop架构 Web Servers Log Collection Servers Filers Data Warehousing on a Cluster Oracle RAC Federated MySQL 23

淘宝Hadoop与Hive的使用 Scheduler Thrift Server Rich Client Client Program Web Server CLI/GUI MetaStore Server Web Mysql JobClient

调试标准输出,标准出错 Web显示(50030, 50060, 50070) NameNode,JobTracker, DataNode, TaskTracker日志本地重现: Local Runner DistributedCache中放入调试代码

Profiling 目的：查性能瓶颈，内存泄漏，线程死锁等工具： jmap, jstat, hprof,jconsole, jprofiler mat,jstack 对JobTracker的Profile 对各slave节点TaskTracker的Profile 对各slave节点某Child进程的Profile(可能存在单点执行速度过慢)

监控目的：监控集群或单个节点I/O, 内存及CPU 工具： Ganglia

如何减少数据搬动? 28 28 28

数据倾斜 29 29 29