王耀聰 陳威宇 國家高速網路與計算中心(NCHC)

Slides:



Advertisements
Similar presentations
IM426 – BUSINESS CASE 6: SOCIAL SENTIMENTAL ANALYSIS 社群情感分析 Original case source & reference: Rainer, Kelly, Prince, Brad and Watson, Hugh, Management.
Advertisements

網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚. 資訊科技挑戰獎勵計劃 樂善堂梁銶琚學校 6A(06)陳芷蘊 中華白海豚.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
基于Hadoop的Map/Reduce框架研究报告
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
人工智能 Artificial Intelligence 第十一章
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
一、现状与问题 整体竞争能力不强 服务品质不高 市场秩序失范 管理效率低下 旅游旺季人满为患 资源和环境保护不力 欺客宰客的现象时有发生
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
大数据在医疗行业的应用.
云实践引导产业升级 沈寓实 博士 教授 MBA 中国云体系产业创新战略联盟秘书长 微软云计算中国区总监 WinHEC 2015
Introduction to MapReduce
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
程式語言的基礎 Input Output Program 世代 程式語言 第一世代 Machine language 第二世代
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
开发者社交网络 张伟强.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
An Introduction to Computer Science (計算機概論)
Skew Join相关论文 报告人:蔡珉星 厦大数据库实验室
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
Homework 1(上交时间:10月14号) 倒排索引.
OpenID與WordPress使用說明
信息产业导论期末汇报 汇报人:刁梦鸽 学号: 时间:2012年5月31日.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
斯坦福大学调研 蒋达晟.
Hadoop入门
SAP R/3架構及前端軟體安裝 Logical View of the R/3 System SAP Frontend 6.2安裝
資料庫 靜宜大學資管系 楊子青.
Term Project : Requirement
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝與登入
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
基于MapReduce的Join算法优化
SAP 架構及基本操作 SAP前端軟體安裝與登入 Logical View of the SAP System SAP登入 IDES
An Quick Introduction to R and its Application for Bioinformatics
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
雲端運算的技術趨勢與影響 資管四A 謝宗儒 A.
SAP 架構及前端軟體安裝 Logical View of the SAP System SAP Frontend 7.1安裝 SAP登入
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
Term Project : Requirement
Presentation transcript:

王耀聰 陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC) Map Reduce 介紹 王耀聰 陳威宇 Jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)

Divide and Conquer 範例二:方格法求面積 範例一:十分逼近法 範例三:鋪滿 L 形磁磚 範例四: 眼前有五階樓梯,每次可踏上一階或踏上兩階,那麼爬完五階共有幾種踏法? Ex : (1,1,1,1,1) or (1,2,1,1)

Map Reduce 起源 Functional Programming : Map Reduce 演算法(Algorithms): [ 1,2,3,4 ] – (*2) -> [ 2,4,6,8 ] reduce(...): [ 1,2,3,4 ] - (sum) -> 10 演算法(Algorithms): Divide and Conquer 分而治之 在程式設計的軟體架構內,適合使用在大規模數據的運算中

Hadoop MapReduce定義 Hadoop Map/Reduce是一個易於使用的軟體平台,以MapReduce為基礎的應用程序,能夠運作在由上千台PC所組成的大型叢集上,並以一種可靠容錯的方式平行處理上P級別的資料集。 一個使用在大量節點叢集上計算各式各樣問題的軟體架構

Hadoop-MapReduce 運作流程 input HDFS map output HDFS sort/copy merge reduce split 0 split 1 split 2 split 3 split 4 part0 map reduce part1 map JobTracker跟NameNode取得需要運算的blocks JobTracker選數個TaskTracker來作Map運算,產生些中間檔案 JobTracker將中間檔案整合排序後,複製到需要的TaskTracker去 JobTracker派遣TaskTracker作reduce reduce完後通知JobTracker與Namenode以產生output

MapReduce 與 <Key, Value> Row Data Map Input Output Map key1 val key2 … Select Key Reduce Input Output key1 val …. Reduce key values

MapReduce 圖解

MapReduce in Parallel

範例 I am a tiger, you are also a tiger a,2 also,1 am,1 are,1 I,1 map a, 1 a,1 also,1 am,1 are,1 I,1 tiger,1 you,1 reduce map reduce map JobTracker先選了三個Tracker做map Map結束後,hadoop進行中間資料的整理與排序 JobTracker再選兩個TaskTracker作reduce

Hadoop適用於.. 大規模資料集 可拆解 Text tokenization Indexing and Search Data mining machine learning … http://www.dbms2.com/2008/08/26/known-applications-of-mapreduce/ http://wiki.apache.org/hadoop/PoweredBy

Hadoop Applications (1) Adobe use Hadoop and HBase in several areas from social services to structured data storage and processing for internal use. Adknowledge - Ad network used to build the recommender system for behavioral targeting, plus other clickstream analytics Alibaba processing sorts of business data dumped out of database and joining them together. These data will then be fed into iSearch, our vertical search engine. AOL We use hadoop for variety of things ranging from ETL style processing and statistics generation to running advanced algorithms for doing behavioral analysis

Hadoop Applications (2) Baidu - the leading Chinese language search engine Hadoop used to analyze the log of search and do some mining work on web page database Contextweb - ADSDAQ Ad Excange use Hadoop to store ad serving log and use it as a source for Ad optimizations/Analytics/reporting/machine learning. Detikcom - Indonesia's largest news portal use hadoop, pig and hbase to analyze search log, generate Most View News, generate top wordcloud, and analyze all of our logs

Hadoop Applications (3) DropFire generate Pig Latin scripts that describe structural and semantic conversions between data contexts use Hadoop to execute these scripts for production-level deployments Facebook use Hadoop to store copies of internal log and dimension data sources use it as a source for reporting/analytics and machine learning. Freestylers - Image retrieval engine use Hadoop 影像處理 Hosting Habitat 取得所有clients的軟體資訊 分析並告知clients 未安裝或未更新的軟體

Hadoop Applications (4) IBM Blue Cloud Computing Clusters ICCS 用 Hadoop and Nutch to crawl Blog posts 並分析之 IIIT, Hyderabad We use hadoop 資訊檢索與提取 Journey Dynamics 用 Hadoop MapReduce 分析 billions of lines of GPS data 並產生交通路線資訊. Krugle 用 Hadoop and Nutch 建構 原始碼搜尋引擎

Hadoop Applications (5) SEDNS - Security Enhanced DNS Group 收集全世界的 DNS 以探索網路分散式內容. Technical analysis and Stock Research 分析股票資訊 University of Maryland 用Hadoop 執行 machine translation, language modeling, bioinformatics, email analysis, and image processing 相關研究 University of Nebraska Lincoln, Research Computing Facility 用Hadoop跑約200TB的CMS經驗分析 緊湊渺子線圈(CMS,Compact Muon Solenoid)為瑞士歐洲核子研究組織CERN的大型強子對撞器計劃的兩大通用型粒子偵測器中的一個。

Hadoop Applications (6) PARC Used Hadoop to analyze Wikipedia conflicts Search Wikia A project to help develop open source social search tools Yahoo! Used to support research for Ad Systems and Web Search 使用Hadoop平台來發現發送垃圾郵件的殭屍網絡 趨勢科技 過濾像是釣魚網站或惡意連結的網頁內容