YARN & MapReduce 2.0 Boyu Diao 2016.06.17.

Slides:



Advertisements
Similar presentations
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
Advertisements

第120讲:Hadoop的MapReduce和Yarn的配置实战详解
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
Foundations of Computer Science
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
E-Mapreduce培训系列 基本介绍.
基于Hadoop的Map/Reduce框架研究报告
Ch.8. 基于MapReduce的图算法 MapReduce海量数据并行处理
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
Project Description.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
大数据在医疗行业的应用.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
Introduction to MapReduce
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
CHT Project Progress Report
Cloud Computing for Big Data – Monitoring & Resource Management
软件工程基础 Hadoop生态系统 刘 驰.
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
从TDW-Hive到TDW-SparkSQL
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
Homework 1(上交时间:10月14号) 倒排索引.
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
Embed Google Map 資二乙 1號 王思洋.
Hadoop入门
SAP R/3架構及前端軟體安裝 Logical View of the R/3 System SAP Frontend 6.2安裝
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
虚 拟 仪 器 virtual instrument
中国科学技术大学计算机系 陈香兰 Fall 2013 第三讲 线程 中国科学技术大学计算机系 陈香兰 Fall 2013.
Apache Flink 刘 驰.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
Web Services and Its Applications
基于MapReduce的Join算法优化
營建管理基本觀念.
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
會計財務資訊系統 吳琮璠 博士.
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝 SAP登入
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
Presentation transcript:

YARN & MapReduce 2.0 Boyu Diao 2016.06.17

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture Examples 这周上周讨论了hadoop内核 hdfs 这周我们将讨论内核另外两个部分 yarn和mapreduce 其实hadoop的内核并不是在一开始就有这三个,而是从hadoop2.0开始才有的 我们首先来看一下hadoop内核发展的历程

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture Examples

Evolution of Hadoop Core Hadoop的1.0版本 只有hdfs和mapreduce 到了2.0 加入了一个调度层yarn Hadoop 2.0 还可以支持其他数据处理的框架

Evolution of Hadoop Core Apache 版本 1.2.1 2013年8月1日后 没有再更新过 0.23.11 2014年6月27日 2.X版本,比0.23版本多了hdfs HA 2.6.4 2.7.2 2016年2月左右

Evolution of Hadoop Core Why Hadoop 2.0 从版本演化,我们可以看到 Hadoop2.0 相比hadoop1.0的优化在两方面 一个是Hadoop hdfs HA 一个是添加yarn 资源调度层 为什么要做这两个 和很好理解。

Evolution of Hadoop Core Why Hadoop 2.0 ? Performance bottleneck : JobTracker / NameNode Single point of failure : JobTracker / NameNode Not flexible : MapReduce Only Cost of  Operation and maintenance Data Sharing

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture 上周我们提到过一次hadoop生态系统,这里我们重新详细说一下 上周我们也提过,大数据技术,核心是分布式系统的相关理论。 所以,在说HDFS之前,我们先讨论一些分布式系统的概念 然后就是HDFS 的架构,读写过程,和Shell以及api等

YARN: Yet Another Resource Negotiator 名字的由来

YARN Architecture Why YARN Performance bottleneck : JobTracker Single point of failure : JobTracker Not flexible : MapReduce Only Cost of  Operation and maintenance Data Sharing

YARN Architecture YARN YARN 是资源调度器, 两层调度 就好比说,送快递 以前顺丰在中国只有一个网店,上海,负责中国所有市区县镇的快递业务。那你想想,这个运配中心得多大 但更合理的肯定是 全国分几个大的枢纽,到市县还会有下级单位,一级一级的调度。 那你可能会问,这么简单的调度为什么在最开始的时候没想到,原因很简单,因为google的论文里没写。 其实gogle

YARN Architecture :Terminologies Resource Manager Application Manager Resource Scheduler Node Manager Application Master Container YARN里的哪些术语,也就是他怎么定义各个组件的

YARN Architecture :Resource Manager Application Manager Resource Scheduler Client Request Start/ Monitor App Master Monitor Node Manager 生命周期

YARN Architecture :Node Manager Task Managing Local Resource Scheduling App Mater Request 生命周期

YARN Architecture :Application Master Start/Monitor App Apply Resource for Tasks Allocate Resource for Tasks

YARN Architecture :Container Containing : Task Runtime Environment Jars Task Resources CPU/Memory Initial Information Start Command Parameters 生命周期 类似docker

YARN Architecture :Terminologies Resource Manager Node Manager Application Master Container

YARN Architecture : Anatomy

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture

YARN: Fault-Tolerance Resource Manager Zookeeper HA Node Manager All tasks on this machine fail Resource Manager inform App Master to restart failure tasks Application Master Resource Manager Restart AM Resource Manager keep the context

YARN: Resources Scheduling FIFO Scheduling Capacity Scheduling Fair Scheduling Dominant Resource Fairness: Fair Allocation of Multiple Resource Types

YARN: X on YARN

YARN: Tez on YARN

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture

MapReduce MapReduce : Simplified Data Processing on Large Clusters, OSDI 2004 MapReduce: The theory or framework A paradigm in functional language A Software in Google Core of Hadoop 1.0 Core of Hadoop 2.0 (MapReduce on YARN)

MapReduce: Why Functional Programming Lisp

MapReduce Architecture

MapReduce Architecture: 1.0 Terminologies Job Tracker Task Trackers Map Task Reduce Task

MapReduce Architecture: Job Tracker Master Manage Jobs Schedule jobs to Task Trackers Resource Scheduling

MapReduce Architecture: Task Trackers Slaves Map Tasks Reduce Tasks Communicate with Job Tacker

MapReduce Architecture: Map Task Map Engine Input <key1,v1> Output <key2,v2>

MapReduce Architecture: Reduce Task Reduce engine Input <key1 list(value1)> Output <value2>

MapReduce Architecture: 2.0 Terminologies MR App Master Master Manage Jobs Schedule jobs to Task Trackers Ask Resource Manager for Resources.

MapReduce Architecture: MR App Master Map Task Reduce Task

MapReduce : Anatomy

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture

MapReduce : Fault-Tolerance MRAppMaster Failure Resource Manager restart Default twice Map / Reduce Task Failure MRAppMaster request Resource and restart Default 4 times

MapReduce :Backup Tasks Unusual Straggler Restart a same Map/Reduce Task on a different machine.

MapReduce :Applications Distributed Grep

MapReduce :Applications Count of URL Access Frequency:

MapReduce :Applications Inverted Index:

Outlines Evolution of Hadoop Core YARN: MapReduce Why YARN YARN Architecture Other Topics MapReduce Why MapReduce MapReduce Architecture