CHAPTER 7 認識Hadoop.

Slides:



Advertisements
Similar presentations
1 Hadoop 與 HBase 之架設及應用 Cloud, Hadoop and HBase Hadoop 與 HBase 之架設及應用 Cloud, Hadoop and HBase Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung.
Advertisements

電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
大數據的解決方案 (以Hadoop為中心) 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
基于hadoop的数据仓库技术.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
基于R和pentaho的全套开源BI平台的实现
厦门大学数据库实验室NoSQL系列学习之
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
程式語言的基礎 Input Output Program 世代 程式語言 第一世代 Machine language 第二世代
程式設計概論 1.1 程式設計概論 程式語言的演進 物件導向程式 程式開發流程 1.2 C++開發工具
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
雲端運算檔案系統HDFS.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
第一篇 Unix/Linux 操作介面 第 1 章 Unix/Linux 系統概論 第 2 章 開始使用 Unix/Linux
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
CHAPTER 6 認識MapReduce.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
HBase简介与实践分享 剑英.
Hadoop平台與應用規劃實作 報告者:劉育維.
桌面環境簡介及IDE開發工具 Outline (一)什麼是Linux? (二)桌面環境系統簡介 (三)IDE開發工具.
R教學 安裝RStudio 羅琪老師.
ASP.NET基本設計與操作 建國科技大學 資管系 饒瑞佶 2007年.
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Cloud Computing Google云计算原理.
Windoop操作步驟 於作業系統Windows 10 專業版.
OpenID與WordPress使用說明
連結資料庫管理系統.
Android App簡介及 App Inventor 2體驗 靜宜大學資管系 楊子青
OSGi (Open Service Gateway Initiative)
软件工程基础 云计算概论 刘 驰.
私立南山高中 信息組 電腦研習 電腦資料的備份 中華民國 99年4月20日 星期二.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
網路安全技術 OSI七層 學生:A 郭瀝婷 指導教授:梁明章.
Topic Introduction—RMI
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
App Inventor 2初體驗 靜宜大學資管系 楊子青
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
File Input and Output Chap. 11: 施威銘的書 Chap. 7: K&R.
(Mobile User music–Sharing Innovation Center)
Cloud Operating System - Unit 03: 雲端平台建構實驗
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
SQLite資料庫 靜宜大學資管系 楊子青.
Chapter 4 Multi-Threads (多執行緒).
Introduction to Mobile Computing
Presentation transcript:

CHAPTER 7 認識Hadoop

Outline 什麼是Hadoop Hadoop的架構 HDFS (Hadoop Distributed File System) HBase

什麼是Hadoop Hadoop的架構 HDFS (Hadoop Distributed File System) HBase

Hadoop Distributed File System (HDFS) Hadoop is 一個Apache專案 分散式計算的平台 提供使用者簡易撰寫並執行處理海量資料應用程式的軟體平台。 Hadoop Distributed File System (HDFS) MapReduce Hbase A Cluster of Machines Cloud Applications

Hadoop起源(2002~2004) 創辦人-Doug-Cutting Lucene Nutch 用Java 設計的高效能文件索引引擎API 索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高的多 Nutch Nutch 是基於開放原始碼所開發的網站搜尋引擎 利用Lucene 函式庫開發

Hadoop轉折點 Nutch後來遇到儲存大量網站資料的瓶頸 Google在一些會議分享他們的三大關鍵技術 SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data”

Hadoop起源(2004~Now) Doug-Cutting 參考 Google 提出的三項技術 先後把 Distributed File System (NDFS) 以及 MapReduce 實作在 Nutch 在2006年時,Nutch 把分散式計算 (Distributed Computing) 的部分獨立出來,稱之為Hadoop專案 Yahoo 雇用 Doug-Cutting 建立網頁搜尋引擎 NDFS也改名為 Hadoop Distributed File System (HDFS)

Hadoop的特色 海量 Vast Amounts of Data 經濟 Cost Efficiency 擁有儲存與處理大量資料的能力 經濟 Cost Efficiency 可以用在由一般PC所架設的叢集環境內 效率 Parallel Performance 透過分散式檔案系統的幫助,以得到快速的回應 可靠 Robustness 當某節點發生錯誤,能即時自動取得備份資料及佈署運算資源

Google vs. Hadoop 開發團隊 Google Apache 贊助者 Yahoo, Amazon 資源 open document open source 程式撰寫模式 MapReduce Hadoop MapReduce 檔案系統 GFS HDFS 資料庫系統 Bigtable Hbase 搜尋引擎 Nutch 作業系統 Linux Linux / GPL

什麼是Hadoop Hadoop的架構 HDFS (Hadoop Distributed File System) HBase

Hadoop的架構(1/3) Pig Chukwa Hive MapReduce ZooKeeper Avro HBase HDFS Hadoop Core

Hadoop的架構(2/3) Core: Avro: MapReduce: HDFS: Pig: 核心部分包含一些分散式檔案系統及一般輸出入的重要元件跟介面。 Avro: 一個有效率,跨越各種語言的RPC的資料序列化系統。 MapReduce: 一個分散式資料處理模式及執行環境。 HDFS: 一個分散式檔案系統。 Pig: 處理大量資料集的資料流語言與執行環境。

Hadoop的架構(3/3) HBase: ZooKeeper: Hive: Chukwa: 一個分散式以列 (row) 為導向的資料庫系統。 ZooKeeper: 一個分散式協同服務,可以提供分散式應用程式的原始指令。 Hive: 一個分散式資料倉儲系統,管理HDFS上所儲存的資料並提供SQL為基礎的詢問語言。 Chukwa: 一個分散式資料收集及分析系統。

什麼是Hadoop Hadoop的架構 HDFS (Hadoop Distributed File System) HBase

Hadoop Distributed File System (HDFS) 實現類似Google File System 分散式檔案系統 一個易於擴充的分散式檔案系統,目的為對大量資料進行分析 運作於廉價的普通硬體上,又可以提供容錯功能 給大量的用戶提供總體性能較高的服務 Hadoop Distributed File System (HDFS) MapReduce Hbase A Cluster of Machines Cloud Applications

HDFS的特色(1/2) 硬體容錯能力 Fault Tolerance 串流式的資料存取 Streaming data access 硬體錯誤是正常而非異常 自動恢復或故障排除 串流式的資料存取 Streaming data access 批次處理多於用戶交互處理 高Throughput而非低Latency 大規模資料集 Large data sets and files 支援Petabytes等級的磁碟空間 一致性模型 Coherency Model 一次寫入,多次存取 簡化一致性處理問題

HDFS的特色(2/2) 在地運算 Data Locality 異質平台移植性 Heterogeneous 到資料的節點上計算 > 將資料從遠端複製過來計算 異質平台移植性 Heterogeneous 即使硬體不同也可移植、擴充

HDFS架構的兩種關鍵角色 名稱節點 NameNode 資料節點 DataNode 整個HDFS只有一個名稱節點 負責管理檔案系統的命名空間 (namespace) 記錄所有檔案及目錄的metadata 各項檔案屬性權限等資訊的管理及儲存 記錄檔案的各個Blocks置放於哪些資料節點 資料節點 DataNode 可以多個資料節點 處理使用者存取Block的請求,並定時地回報Block狀態給名稱節點

HDFS的架構 名稱節點 第二組 名稱節點 資料節點

HDFS存取流程 (1)檔案名稱 第二組 名稱節點 Client 名稱節點 (2)檔案metadata (3)存取資料 資料節點

HDFS檔案讀取 2: get block location 1: open() NameNode Distributed FileSystem HDFS Client 6: close() 3: read() FSData InputStream client JVM client Node 4: read() 5: read() DateNode DateNode DateNode

HDFS檔案寫入 2: create file 1: create() NameNode Distributed FileSystem Client 7: complete 6: close() 3: write() FSData InputStream client JVM client Node 4: write packet 5: ack packet DateNode 4 DateNode 4 DateNode 5 5

什麼是Hadoop Hadoop的架構 HDFS (Hadoop Distributed File System) HBase

Hadoop Distributed File System (HDFS) 什麼是HBase? HBase是一種分散式欄導向 (column-oriented) 資料庫 可擴展的資料儲存 在2008年Hadoop成為Apache的專案時,HBase也成為其子專案之一。 Hadoop Distributed File System (HDFS) MapReduce Hbase A Cluster of Machines Cloud Applications

Hbase的好處 分散式儲存 表格式的數據結構 高可擴展性 高可用性 高效效

許多公司都在使用HBase Adobe Kalooga Meetup Streamy Trend Micro Yahoo! 內部使用 (Structure data) Kalooga 圖片搜尋引擎 http://www.kalooga.com/ Meetup 社群聚會網站 http://www.meetup.com/ Streamy Migrate from MySQL to Hbase http://www.streamy.com/ Trend Micro 雲端掃毒架構 http://trendmicro.com/ Yahoo! 儲存文件 fingerprint 避免重複 http://www.yahoo.com/ More - http://wiki.apache.org/hadoop/Hbase/PoweredBy

HBase的關鍵角色(1/2) HMaster HRegionserver slaves 負責監控HRegionserver slaves 當HRegionServer 失敗時,轉移該Hregionserver 上的資料到其它HRegionServer。 HRegionserver slaves 接受Client 端發送的請求 (寫/讀/瀏覽) 負責回報HRegions 狀態給HMaster 每個HRegionServer會被分配到多個 (也可能沒有) HRegions

HBase的關鍵角色(2/2) ZooKeeper 是一個集中式的服務機制 存放HBase的綱要 (包含有哪些表格及column families)、所有HRegion的位置及監控HRegionServer的狀態等 提供維護資源配置資訊、命名、分散式同步機制及群組服務等功能 可為HBase提供穩定服務及故障轉移 (failover) 的機制

HBase的架構

Hbase 的Data Model

Example Conceptual View Physical Storage View

Hbase運作流程 表格0 Region Region 找出表格 Region位置 … 找出.META. .META. Region位置 表格1 Region Region -ROOT- 找出-ROOT-位置 Region Region ZooKeeper … Region … … 表格n Region Region …