王耀聰 陳威宇 國家高速網路與計算中心(NCHC)

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

第一组 Java 与云计算. Contents 云计算简介 一 二 云计算实例 三 云计算在教育中的应用 四.
EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
1 网站设计理念 大连理工大学创新实验学院 优秀网站展示 - LAMP 类网站
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
云计算及安全 ——Cloud Computing & Cloud Security
APEX数据和知识管理实验室简介 上海交通大学 计算机科学与工程系.
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
电子工业出版社《云计算(第二版)》配套课件
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚. 資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚.
Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop 叢集 Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop.
云计算应用对比分析 李洁睿 周良俊 2017/3/8.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
保良局何壽南小學 使用牙膏對我們生活的影響 六年級專題報告 姓名﹕李燊樺 班別﹕6B 日期﹕
讓人看了難忘的故事 中藥房轉載 分享人生積極正面訊息 創造宇宙合諧快樂能量.
中國歷史人物武則天 G組組員 韋紫恩, 余詩琪 蔡煦齡, 黃榮紳,.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
E-Mapreduce培训系列 基本介绍.
云计算突飞猛进.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
《大数据技术原理与应用》 课程介绍 (2016春季学期)
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院
基于hadoop的数据仓库技术.
因特网信息的查找 学习目标 了解搜索引擎的不同分类 利用搜索引擎有效地获取信息.
Introduction to MapReduce
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
YARN & MapReduce 2.0 Boyu Diao
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
云计算之分布式计算.
Goolge的云计算 分布式数据表BigTable.
基于Hadoop的数据仓库Hive.
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
Hadoop平台與應用規劃實作 報告者:劉育維.
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Cloud Computing Google云计算原理.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
应用型本科院校大数据专业 实践教学环境改革与探索
Facebook 内部高效工作指南
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
資訊基本概念 與 資訊與生涯及資訊的未來發展
Chapter8 搜尋引擎之使用 網路應用入門(一) Chapter8 搜尋引擎之使用
Enterprise Resource Planning System 企業資源規劃系統
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
大数据应用人才培养系列教材 数据挖掘基础 刘 鹏 张 燕 总主编 陶建辉 主编 姜才康 副主编.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

王耀聰 陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC) Hadoop 簡介 王耀聰 陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)

看了這麼多雲端服務 但….. 是否有一套能夠 開放給大家使用 的雲端平台呢?? 2

The Other Open Source Projects: Eucalyptus University of California, Santa Barbara http://open.eucalyptus.com/ Sector The National Center for Data Mining (NCDM) http://sector.sourceforge.net/ Thrift Facebook http://developers.facebook.com/thrift/ 3 3

什麼是 Hadoop Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data

Hadoop 以Java開發 自由軟體 上千個節點 Petabyte等級的資料量 創始者 Doug Cutting 為Apache 軟體基金會的 top level project

特色 巨量 經濟 效率 可靠 擁有儲存與處理大量資料的能力 可以用在由一般PC所架設的叢集環境內 籍由平行分散檔案的處理以致得到快速的回應 有什麼特色 特色 巨量 擁有儲存與處理大量資料的能力 經濟 可以用在由一般PC所架設的叢集環境內 效率 籍由平行分散檔案的處理以致得到快速的回應 可靠 當某節點發生錯誤,系統能即時自動的取得備份資料以及佈署運算資源

起源:2002-2004 Lucene Nutch 用Java設計的高效能文件索引引擎API 有什麼特色 起源:2002-2004 Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字,讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發

起源:Google論文 Google File System 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務 怎麼 來的 起源:Google論文 Google File System SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 可擴充的分散式檔案系統 大量的用戶提供總體性能較高的服務 對大量資訊進行存取的應用 運作在一般的普通主機上 提供錯誤容忍的能力

起源:2004~ Dong Cutting 開始參考論文來實做 怎麼 來的 起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS & MapReduce implement to Nutch Nutch 0.8版之後,Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 (engineers, clusters, users, etc. ) 2009 年跳槽到Cloudera

誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 有誰 在用 誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…:

Hadoop於yahoo的運作資訊 實用案例 Sort benchmark, every nodes with terabytes data.

Hadoop於yahoo的部屬情形 實用案例 資料標題:Yahoo! Launches World's Largest Hadoop Production Application 資料日期:February 19, 2008

Hadoop於yahoo的部屬情形 實用案例 資料標題:Scaling Hadoop to 4000 nodes at Yahoo! 資料日期:September 30, 2008 Total Nodes 4000 Total cores 30000 Data 16PB   500-node cluster 4000-node cluster write read number of files 990 14,000 file size (MB) 320 360 total MB processes 316,800 5,040,000 tasks per node 2 4 avg. throughput (MB/s) 5.8 18 40 66

File System (MapReduce) Storage System (for structure data) 瞭解 更多 Hadoop 與google的對應 Develop Group Google Apache Sponsor Yahoo, Amazon Algorithm Method MapReduce Hadoop Resource open document open source File System (MapReduce) GFS HDFS Storage System (for structure data) big-table Hbase Search Engine nutch OS Linux Linux / GPL

動手安裝囉! 15 15