王耀聰陳威宇國家高速網路與計算中心(NCHC)

王耀聰陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)
Hadoop 簡介王耀聰陳威宇國家高速網路與計算中心(NCHC)

看了這麼多雲端服務但….. 是否有一套能夠開放給大家使用的雲端平台呢??
2

The Other Open Source Projects: Eucalyptus
University of California, Santa Barbara Sector The National Center for Data Mining (NCDM) Thrift Facebook 3 3

什麼是 Hadoop Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data

Hadoop 以Java開發自由軟體上千個節點 Petabyte等級的資料量創始者 Doug Cutting
為Apache 軟體基金會的 top level project

特色巨量經濟效率可靠擁有儲存與處理大量資料的能力可以用在由一般PC所架設的叢集環境內籍由平行分散檔案的處理以致得到快速的回應
有什麼特色特色巨量擁有儲存與處理大量資料的能力經濟可以用在由一般PC所架設的叢集環境內效率籍由平行分散檔案的處理以致得到快速的回應可靠當某節點發生錯誤，系統能即時自動的取得備份資料以及佈署運算資源

起源:2002-2004 Lucene Nutch 用Java設計的高效能文件索引引擎API
有什麼特色起源: Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字，讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發

起源：Google論文 Google File System 可擴充的分散式檔案系統大量的用戶提供總體性能較高的服務
怎麼來的起源：Google論文 Google File System SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 可擴充的分散式檔案系統大量的用戶提供總體性能較高的服務對大量資訊進行存取的應用運作在一般的普通主機上提供錯誤容忍的能力

起源:2004~ Dong Cutting 開始參考論文來實做
怎麼來的起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS & MapReduce implement to Nutch Nutch 0.8版之後，Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 （engineers, clusters, users, etc. ) 2009 年跳槽到Cloudera

誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容
有誰在用誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…:

Hadoop於yahoo的運作資訊實用案例
Sort benchmark, every nodes with terabytes data.

Hadoop於yahoo的部屬情形實用案例資料標題：Yahoo! Launches World's Largest Hadoop
Production Application 資料日期：February 19, 2008

Hadoop於yahoo的部屬情形實用案例資料標題：Scaling Hadoop to 4000 nodes at Yahoo!
資料日期：September 30, 2008 Total Nodes 4000 Total cores 30000 Data 16PB 500-node cluster 4000-node cluster write read number of files 990 14,000 file size (MB) 320 360 total MB processes 316,800 5,040,000 tasks per node 2 4 avg. throughput (MB/s) 5.8 18 40 66

File System (MapReduce) Storage System (for structure data)
瞭解更多 Hadoop 與google的對應 Develop Group Google Apache Sponsor Yahoo, Amazon Algorithm Method MapReduce Hadoop Resource open document open source File System (MapReduce) GFS HDFS Storage System (for structure data) big-table Hbase Search Engine nutch OS Linux Linux / GPL

動手安裝囉！ 15 15

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Similar presentations

Presentation on theme: "王耀聰陳威宇國家高速網路與計算中心(NCHC)"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

王耀聰 陳威宇 國家高速網路與計算中心(NCHC)

Similar presentations

Presentation on theme: "王耀聰 陳威宇 國家高速網路與計算中心(NCHC)"— Presentation transcript:

Similar presentations

About project

反馈

王耀聰陳威宇國家高速網路與計算中心(NCHC)

Presentation on theme: "王耀聰陳威宇國家高速網路與計算中心(NCHC)"— Presentation transcript: