Hadoop 簡介 王耀聰 陳威宇 國家高速網路與計算中心(NCHC)

2 看了這麼多雲端服務 但….. 是否有一套能夠 開放給大家使用 的雲端平台呢??

3 The Other Open Source Projects: Eucalyptus
4 什麼是 Hadoop Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data

5 Hadoop 以Java開發 自由軟體 上千個節點 Petabyte等級的資料量 創始者 Doug Cutting
6 特色 巨量 經濟 效率 可靠 擁有儲存與處理大量資料的能力 可以用在由一般PC所架設的叢集環境內 籍由平行分散檔案的處理以致得到快速的回應
有什麼特色 特色 巨量 擁有儲存與處理大量資料的能力 經濟 可以用在由一般PC所架設的叢集環境內 效率 籍由平行分散檔案的處理以致得到快速的回應 可靠 當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源

7 起源:2002-2004 Lucene Nutch 用Java設計的高效能文件索引引擎API
8 起源:Google論文 Google File System 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務
9 起源:2004~ Dong Cutting 開始參考論文來實做
10 誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容
11 Hadoop於yahoo的運作資訊 實用案例
12 Hadoop於yahoo的部屬情形 實用案例 資料標題:Yahoo! Launches World's Largest Hadoop
13 Hadoop於yahoo的部屬情形 實用案例 資料標題:Scaling Hadoop to 4000 nodes at Yahoo!
資料日期:September 30, 2008 Total Nodes 4000 Total cores 30000 Data 16PB 500-node cluster 4000-node cluster write read number of files 990 14,000 file size (MB) 320 360 total MB processes 316,800 5,040,000 tasks per node 2 4 avg. throughput (MB/s) 5.8 18 40 66

14 File System (MapReduce) Storage System (for structure data)
15 動手安裝囉! 15 15

