王耀聰陳威宇國家高速網路與計算中心(NCHC)

Slides:

Advertisements

Similar presentations

網站經營心得分享林文宗明新科技大學資管系助理教授麟瑞科技顧問工研院資通所無線通訊技術組顧問明新科技大學電算中心網路組組長國立清華大學資訊工程學系博士.

Advertisements

第一组 Java 与云计算. Contents 云计算简介一二云计算实例三云计算在教育中的应用四.

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处理海量数据？如何存储海量数据？如何降低硬件成本？如何取得一劳永逸的解决方案？

1 网站设计理念大连理工大学创新实验学院优秀网站展示 - LAMP 类网站

课程介绍（PPT版本号：2016年1月24日版本）温馨提示：编辑幻灯片母版，可以修改每页PPT的厦大校徽和底部文字林子雨

13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎？

云计算辅助教学风云录黎加厚上海师范大学教育技术系 2010年8月9日.

云计算及安全 ——Cloud Computing & Cloud Security

APEX数据和知识管理实验室简介上海交通大学计算机科学与工程系.

電子商務：數位時代商機‧梁定澎總編輯‧前程文化出版

电子工业出版社《云计算(第二版)》配套课件

云计算系统测试技术与实践中国软件评测中心陈渌萍 2017年3月3日.

DATE: 14/10/2009 陳威宇格網技術組雲端運算相關應用 (Based on Hadoop)

Big Data Ecosystem – Hadoop Distribution

資訊科技挑戰獎勵計劃樂善堂梁銶琚學校 6A(06)陳芷蘊中華白海豚. 資訊科技挑戰獎勵計劃樂善堂梁銶琚學校 6A(06)陳芷蘊中華白海豚.

Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍：無人值守自動安裝 Hadoop 叢集 Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍：無人值守自動安裝 Hadoop.

云计算应用对比分析李洁睿周良俊 2017/3/8.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

保良局何壽南小學使用牙膏對我們生活的影響六年級專題報告姓名﹕李燊樺班別﹕6B 日期﹕

讓人看了難忘的故事中藥房轉載分享人生積極正面訊息創造宇宙合諧快樂能量.

中國歷史人物武則天 G組組員韋紫恩, 余詩琪蔡煦齡, 黃榮紳,.

教育雲端科技的現況與未來發展臺北市政府教育局聘任督學韓長澤.

E-Mapreduce培训系列基本介绍.

云计算突飞猛进.

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

云计算业务应用-数据挖掘.

南京大学计算机科学与技术系主讲人：黄宜华 2011年春季学期

巨量資料平台： Hadoop的生態系.

《大数据技术原理与应用》课程介绍（2016春季学期）

台灣雲端運算應用實驗中心研發計畫計畫期間：自98年7月1日至99年6月30日止執行單位名稱：財團法人資訊工業策進會國立中山大學.

第11章海量信息存储主讲：刘方明副教授华中科技大学计算机学院

HADOOP的高能物理分析平台孙功星高能物理研究所/计算中心

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

大数据革命与大众生活变革黄欣荣博士教授江西财经大学马克思主义学院

基于hadoop的数据仓库技术.

因特网信息的查找学习目标了解搜索引擎的不同分类利用搜索引擎有效地获取信息.

Introduction to MapReduce

王耀聰陳威宇國家高速網路與計算中心(NCHC)

當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang

YARN & MapReduce 2.0 Boyu Diao

高级软件工程云计算主讲：李祥 QQ: 年12月.

第3章分布式文件系统HDFS （PPT版本号：2017年2月版本）

分布式系统中的关键概念及Hadoop的起源、架构、搭建

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

云计算之分布式计算.

Goolge的云计算分布式数据表BigTable.

基于Hadoop的数据仓库Hive.

kCloudStorage - 基于云技术的廉价冗余天文海量数据存储

和諧社區資訊服務推廣計畫 -軟體雲端社區資訊研習營

CHAPTER 6 認識MapReduce.

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

开源云计算系统简介电子工业出版社刘鹏主编《云计算》教材配套课件11.

Cloud Computing(雲端運算) 技術的現況與應用

斯巴達帶大家上雲端.

Hadoop平台與應用規劃實作報告者：劉育維.

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

Cloud Computing Google云计算原理.

软件工程基础云计算概论刘驰.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

大数据与物流沈庆琼物流教研室.

应用型本科院校大数据专业实践教学环境改革与探索

Facebook 内部高效工作指南

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

資訊基本概念與資訊與生涯及資訊的未來發展

Chapter8 搜尋引擎之使用網路應用入門(一) Chapter8 搜尋引擎之使用

Enterprise Resource Planning System 企業資源規劃系統

11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee

大数据应用人才培养系列教材数据挖掘基础刘鹏张燕总主编陶建辉主编姜才康副主编.

大数据发展的问题与方向中国信通院云大所.

Presentation transcript:

王耀聰陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC) Hadoop 簡介王耀聰陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)

看了這麼多雲端服務但….. 是否有一套能夠開放給大家使用的雲端平台呢?? 2

The Other Open Source Projects: Eucalyptus University of California, Santa Barbara http://open.eucalyptus.com/ Sector The National Center for Data Mining (NCDM) http://sector.sourceforge.net/ Thrift Facebook http://developers.facebook.com/thrift/ 3 3

什麼是 Hadoop Hadoop ? Hadoop is a software platform that lets one easily write and run applications that process vast amounts of data

Hadoop 以Java開發自由軟體上千個節點 Petabyte等級的資料量創始者 Doug Cutting 為Apache 軟體基金會的 top level project

特色巨量經濟效率可靠擁有儲存與處理大量資料的能力可以用在由一般PC所架設的叢集環境內籍由平行分散檔案的處理以致得到快速的回應有什麼特色特色巨量擁有儲存與處理大量資料的能力經濟可以用在由一般PC所架設的叢集環境內效率籍由平行分散檔案的處理以致得到快速的回應可靠當某節點發生錯誤，系統能即時自動的取得備份資料以及佈署運算資源

起源:2002-2004 Lucene Nutch 用Java設計的高效能文件索引引擎API 有什麼特色起源:2002-2004 Lucene 用Java設計的高效能文件索引引擎API 索引文件中的每一字，讓搜尋的效率比傳統逐字比較還要高的多 Nutch nutch是基於開放原始碼所開發的web search 利用Lucene函式庫開發

起源：Google論文 Google File System 可擴充的分散式檔案系統大量的用戶提供總體性能較高的服務怎麼來的起源：Google論文 Google File System SOSP 2003 : “The Google File System” OSDI 2004 : “MapReduce : Simplifed Data Processing on Large Cluster” OSDI 2006 : “Bigtable: A Distributed Storage System for Structured Data” 可擴充的分散式檔案系統大量的用戶提供總體性能較高的服務對大量資訊進行存取的應用運作在一般的普通主機上提供錯誤容忍的能力

起源:2004~ Dong Cutting 開始參考論文來實做怎麼來的起源:2004~ Dong Cutting 開始參考論文來實做 Added DFS & MapReduce implement to Nutch Nutch 0.8版之後，Hadoop為獨立項目 Yahoo 於2006年僱用Dong Cutting 組隊專職開發 Team member = 14 （engineers, clusters, users, etc. ) 2009 年跳槽到Cloudera

誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容有誰在用誰在用Hadoop Yahoo 為最大的贊助商 IBM 與 Google 在大學開授雲端課程的主要內容 Hadoop on Amazon Ec2/S3 More…:

Hadoop於yahoo的運作資訊實用案例 Sort benchmark, every nodes with terabytes data.

Hadoop於yahoo的部屬情形實用案例資料標題：Yahoo! Launches World's Largest Hadoop Production Application 資料日期：February 19, 2008

Hadoop於yahoo的部屬情形實用案例資料標題：Scaling Hadoop to 4000 nodes at Yahoo! 資料日期：September 30, 2008 Total Nodes 4000 Total cores 30000 Data 16PB 500-node cluster 4000-node cluster write read number of files 990 14,000 file size (MB) 320 360 total MB processes 316,800 5,040,000 tasks per node 2 4 avg. throughput (MB/s) 5.8 18 40 66

File System (MapReduce) Storage System (for structure data) 瞭解更多 Hadoop 與google的對應 Develop Group Google Apache Sponsor Yahoo, Amazon Algorithm Method MapReduce Hadoop Resource open document open source File System (MapReduce) GFS HDFS Storage System (for structure data) big-table Hbase Search Engine nutch OS Linux Linux / GPL

動手安裝囉！ 15 15