Download presentation
Presentation is loading. Please wait.
1
王耀聰 陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)
Hadoop 簡介 王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
2
看了這麼多雲端服務 但….. 是否有一套能夠 開放給大家使用 的雲端平台呢??
2
3
The Other Open Source Projects: Eucalyptus
University of California, Santa Barbara Sector The National Center for Data Mining (NCDM) Thrift Facebook 3 3
4
什麼是 Hadoop Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data
5
Hadoop 以Java開發 自由軟體 上千個節點 Petabyte等級的資料量 創始者 Doug Cutting
為Apache 軟體基金會的 top level project
6
特色 巨量 經濟 效率 可靠 擁有儲存與處理大量資料的能力 可以用在由一般PC所架設的叢集環境內 籍由平行分散檔案的處理以致得到快速的回應
有什麼特色 特色 巨量 擁有儲存與處理大量資料的能力 經濟 可以用在由一般PC所架設的叢集環境內 效率 籍由平行分散檔案的處理以致得到快速的回應 可靠 當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源
7
起源:2002-2004 Lucene Nutch 用Java設計的高效能文件索引引擎API
有什麼特色 起源: Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發
8
起源:Google論文 Google File System 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務
怎麼 來的 起源:Google論文 Google File System SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務 對大量資訊進行存取的應用 運作在一般的普通主機上 提供錯誤容忍的能力
9
起源:2004~ Dong Cutting 開始參考論文來實做
怎麼 來的 起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS & MapReduce implement to Nutch Nutch 0.8版之後,Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 (engineers, clusters, users, etc. ) 2009 年跳槽到Cloudera
10
誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容
有誰 在用 誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…:
11
Hadoop於yahoo的運作資訊 實用案例
Sort benchmark, every nodes with terabytes data.
12
Hadoop於yahoo的部屬情形 實用案例 資料標題:Yahoo! Launches World's Largest Hadoop
Production Application 資料日期:February 19, 2008
13
Hadoop於yahoo的部屬情形 實用案例 資料標題:Scaling Hadoop to 4000 nodes at Yahoo!
資料日期:September 30, 2008 Total Nodes 4000 Total cores 30000 Data 16PB 500-node cluster 4000-node cluster write read number of files 990 14,000 file size (MB) 320 360 total MB processes 316,800 5,040,000 tasks per node 2 4 avg. throughput (MB/s) 5.8 18 40 66
14
File System (MapReduce) Storage System (for structure data)
瞭解 更多 Hadoop 與google的對應 Develop Group Google Apache Sponsor Yahoo, Amazon Algorithm Method MapReduce Hadoop Resource open document open source File System (MapReduce) GFS HDFS Storage System (for structure data) big-table Hbase Search Engine nutch OS Linux Linux / GPL
15
動手安裝囉! 15 15
Similar presentations