CHAPTER 6 認識MapReduce.

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
第5讲 索引构建 Index construction 授课人:高曙明
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
基于Hadoop的Map/Reduce框架研究报告
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
《大数据技术原理与应用》 课程介绍 (2016春季学期)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
一种基于Hadoop的视频大数据分布式解码方法 冯强
Chapter9 金融监管体系.
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
Introduction to MapReduce
Frontiers of Software Engineering
软件工程基础 Hadoop生态系统 刘 驰.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
基于R和pentaho的全套开源BI平台的实现
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Hadoop MapReduce Hadoop Map-Reduce is a software framework for easily writing applications.
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
第九讲 Hadoop架构再探讨 (2016春季学期)
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
厦门大学数据库实验室 MapReduce 连接
Hadoop平台與應用規劃實作 報告者:劉育維.
Cloud Computing MapReduce进阶.
从TDW-Hive到TDW-SparkSQL
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
Hadoop入门
应用型本科院校大数据专业 实践教学环境改革与探索
生涯手冊第18頁 生涯統整面面觀.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
K/3 Cloud V6.0产品培训 -- 业务监控 K/3 Cloud 产品部
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
Apache Flink 刘 驰.
K/3 Cloud V6.1产品培训 -- 业务监控 K/3 Cloud 产品部
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
基于MapReduce的Join算法优化
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
Cloud Computing Google云计算原理.
基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
Presentation transcript:

CHAPTER 6 認識MapReduce

Outline 什麼是MapReduce MapReduce的運作原理 MapReduce的特性

什麼是MapReduce MapReduce的運作原理 MapReduce的特性

Hadoop Distributed File System (HDFS) 什麼是MapReduce? MapReduce是由Google所提出的一套平行程式架構 主要是用來處理大量資料 擁有可靠的容錯機制 採用了類似Divide-and-Conquer的觀念 啟發自函數編程中常用的 Map (映射)函數 Reduce (化簡)函數 Hadoop Distributed File System (HDFS) MapReduce Hbase A Cluster of Machines Cloud Applications

MapReduce一些專業術語 Job Master node Task Slave nodes JobTracker Map 任務 Task 小工作 JobTracker 任務分派者 TaskTracker 小工作的執行者 Client 發起任務的客戶端 Master node 控制節點 Slave nodes 工作節點 Map 對應 Reduce 總和

Nodes, Trackers, Tasks JobTracker TaskTracker 運行在 Master node 上 接受clients端發送的工作 TaskTracker 運行在 Slave nodes上 獨立執行所分派的小工作

MapReduce 與<Key, Value>關係 Select key Input Output Input Output Key1 val Key1 val val Key2 val Key values Data val … … … Reducer Map

MapReduce: High Level

什麼是MapReduce MapReduce的運作原理 MapReduce的特性

MapReduce的基本原理運作圖 使用者的程式 (1)配置 (1)配置 (1)配置 Master機器 (2)分配Reduce 任務 GFS或HDFS 檔案系統 (2)分配Map 任務 本地磁碟的 內部檔案 GFS或HDFS 檔案系統 Map 中間值0 (6)寫入 中間值1 Reduce 資料0 (3)讀取 (4)本地寫入 輸出結果0 資料1 Map 中間值0 (5)遠端讀取 資料2 輸出結果1 中間值1 Reduce 資料3 Map 資料4 中間值0 中間值1 輸入檔案 Map階段 Reduce階段 輸出檔案 本地磁碟的 中介檔案

Wordcount範例 Input Output Sort/Copy Mapper Merge Cat Dog Cat 2 Reducer Pig 2 Cat 1 Cat [1 1] Pig [1 1] Cat 1 Pig 1 Pig 1 Mapper Pig FIsh Pig 1 FIsh 1 FIsh 1 Reducer Dog 1 FIsh 2 Cat Pig Dog Dog[1] Fish [1 1] FIsh 1 FIsh 1 Mapper FIsh Cat 1 Pig 1

( (Text) value ).toString(); Mapper流程 Hi Cloud say Hi Input Key StringTokenizer itr = new StringTokenizer( line); ( (Text) value ).toString(); Hi Cloud say Hi /user/hadoop/input/hi … Hi Cloud say Hi itr itr itr itr itr while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } <word, one> Input Value <Hi, 1> <Cloud, 1> <say, 1> <Hi, 1>

Reducer流程 <word, one> <Hi, 1 → 1> <Cloud, 1> <say, 1> Hi 1 1 <key, result> <Hi, 2> <Cloud, 1> <say, 1>

什麼是MapReduce MapReduce的運作原理 MapReduce的特性

MapReduce的特性 可以提供高度的可靠性運算 可以提供容錯機制 可以降低網路傳輸的頻寬需求 可以提供負載平衡