Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

Slides:



Advertisements
Similar presentations
一、听力口语模拟考试情况 去年模拟总分
Advertisements

课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
《大数据技术原理与应用》 课程介绍 (2016春季学期)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
Introduction to MapReduce
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Hadoop I/O By ShiChaojie.
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
Hadoop平台與應用規劃實作 報告者:劉育維.
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
Introduction to Multimedia Coding
Unit 04 虛擬機器建構實驗 M. S. Jian Department of Computer Science and Information Engineering National Formosa University Yunlin, Taiwan, ROC.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
应用型本科院校大数据专业 实践教学环境改革与探索
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
基于云计算及数据挖掘技术的海量数据处理研究
進度流程Demo.
導 論 教學投影片.
基于MapReduce的Join算法优化
Cloud Computing Google云计算原理.
code::blocks 與GLUT 程式開發
網路安全技術期末報告- Google伺服器
Tree Riddles Kun-Mao Chao (趙坤茂)
Tree Riddles Kun-Mao Chao (趙坤茂)
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
DDoS A note given in BCC class on May 15, 2013 Kun-Mao Chao (趙坤茂)
Presentation transcript:

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian Department of Computer Science and Information Engineering National Formosa University Yunlin, Taiwan, ROC

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Hadoop and MapReduce 軟體平台 就是將一個工作分成多個並傳送到多個節點(Node)處理 將各個Node的結果再重新結合統整成最後的結果 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Java開發 自由軟體 為Apache軟體基金會的top level project 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I MapReduce Algorithm Method Hadoop Map/Reduce是一個易於使用的軟體平台,以MapReduce為基礎的應用程序 能夠運作在由上千台PC所組成的大型叢集上,並以一種可靠容錯的方式平行處理上Peta-Bytes數量級的資料集 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 特徵 巨量 –擁有儲存與處理大量資料的能力 •經濟 –可以用在由一般PC所架設的叢集環境內 •效率 –籍由平行分散檔案的處理以致得到快速的回應 •可靠 –當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 特徵 大規模資料集 可拆解 Text tokenization Indexing and Search Data mining machine learning 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I MapReduce理論觀念 Functional Programming : Map Reduce –map(...) : [ 1,2,3,4 ] – (*2) -> [ 2,4,6,8 ] –reduce(...): [ 1,2,3,4 ] - (sum) -> 10 對應演算法中的Divide and conquer 將問題分解成很多個小問題之後,再做總和 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Google v.s. Apache Develop Group Google Apache Sponsor Resource Open Document Open Source File System GFS HDFS Storage System Big-Table Hbase Algorithm Method MapReduce O.S Linux Linux/ GPL 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I HDFS(HadoopDistributed File System) GFS, DFS (Distributed File System) 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Job –任務 • Task –工作 • JobTracker –任務分派者 • TaskTracker –工作的執行者 • Client –發起任務的客戶端 • Map –對應 • Reduce –彙整 Namenode –名稱節點 •Datanode –資料節點 •Namespace –名稱空間 •Replication –副本 •Blocks –檔案區塊 (64M) •Metadata –屬性資料 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Hadoop Package Topology 資料夾名稱 說明 bin 各執行檔,例如: start-all.sh conf 預設的設定檔目錄(可更改),例如: hadoop-env.sh docs Hadoop API與說明文件 contrib 額外套件,例如: Eclipse外掛 lib 相關函式庫(主要函式庫位於hadoop_home) src Hadoop原始碼 build 編譯後的資料夾(搭配ant程式與build.xml) logs 預設日誌檔目錄(可更改) 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 資料管理 Namenode Master、管理HDFS的名稱空間、控制對檔案的讀/寫、配置副本策略、對名稱空間作檢查及紀錄、只能有一個 Datanode Workers、執行讀/寫動作、執行Namenode的副本策略、可多個 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 分派程序 Jobtracker Master、使用者發起工作、指派工作給Tasktrackers、排程決策、工作分配、錯誤處理、只能有一個 Tasktrackers Workers、運作 Map 與 Reduce的工作、管理儲存、回覆運算結果、可多個 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Namenode JobTracker Data Task JAVA Linux Datanode Datanode Datanode TaskTracker TaskTracker TaskTracker Data Task Data Task Data Task JAVA JAVA JAVA Linux Linux Linux 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I Get Block Location Namenode JobTracker Submit Job Data Task JAVA HTTP Monitor UI Linux Datanode Datanode Datanode TaskTracker TaskTracker TaskTracker Data Task Data Task Data Task JAVA JAVA JAVA Linux Linux Linux 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 硬體錯誤容忍能力 –硬體錯誤是正常而非異常 –迅速地自動恢復 串流式的資料存取 –批次處理多於用戶交互處理 –高Throughput > 低Latency 大規模資料集 –支援Perabytes等級的磁碟空間 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 一致性模型 –一次寫入,多次存取 –簡化一致性處理問題 在地運算 –移動到資料節點計算 > 移動資料過來計算 異質平台移植性 –即使硬體不同也可移植、擴充 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 檔案一致性機制 –刪除檔案\新增寫入檔案\讀取檔案皆由Namenode負責 巨量空間及效能機制 –以Block為單位: 64M為單位 –在HDFS上得檔案有可能大過一顆磁碟 –大區塊可提高存取效率 –區塊均勻散佈各節點以分散讀取流量 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I

Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I 目的:提高系統的可靠性與讀取的效率 可靠性:節點失效時讀取副本以維持正常運作 讀取效率:分散讀取流量(但增加寫入時效能瓶頸) 4/20/2019 Cloud Operating System - Unit 05: 雲端分散式Hadoop實驗 -I