Big Data Ecosystem – Hadoop Distribution

Slides:



Advertisements
Similar presentations
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Advertisements

云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
中华字库的云输入法 王勇 基础软件国家工程研究中心
第120讲:Hadoop的MapReduce和Yarn的配置实战详解
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
Presentation of Big Data Issues
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
E-Mapreduce培训系列 基本介绍.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
云计算业务应用-数据挖掘.
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
巨量資料平台: Hadoop的生態系.
《大数据技术原理与应用》 课程介绍 (2016春季学期)
第6章 資料庫管理系統 6-1 關聯式資料庫管理系統 6-2 SQL Server資料庫管理系統
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
大数据在医疗行业的应用.
YARN & MapReduce 2.0 Boyu Diao
資料探勘工具 - Splunk介紹 報告者:曾彥志 報告日期:2015/09/18.
厦门大学数据库实验室NoSQL系列学习之
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
OpenFoundry.org 版本控制系統服務 使用教學
启用“Hadoop”的哨兵 - Sentry 的通用权限管理模型
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
作業系統 補充: 雲端運算.
基于Hadoop的数据仓库Hive.
Data Mining 工具介紹 (Weka+JDBC)
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
物流管理的层次 战略 战术 运营 执行 .目标 .供货政策,服务标准 .物流网设计 作什么 制定目标,政策 .需求预测
Hadoop平台與應用規劃實作 報告者:劉育維.
Data Mining 工具介紹 (Weka/R + ODBC)
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
《Spark编程基础》 《 Spark编程基础》课程介绍 (PPT版本号:2018年2月)
淺談雲端運算 (Cloud Computing)
VISP+MS 国际高校访问学生 及统计理学硕士项目
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
資訊技術策略應用研討會 台積電 e代工策略 指導教授 許棟樑教授 小組成員: 李輝隆 顏丹青 劉小君 民國90年6月16日.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
IEEE Computer Society 長亨文化事業有限公司.
班級:四企四B 指導老師:李文瑞老師 組員: 莊煜麒4950L089 黃暉原4950L109
105學年度 服務學習教育說明會 Service Learning.
Introduction to Service Science 课程概述
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
上海杨浦科技创新(集团)有限公司 Shanghai Yangpu Science & Technology Innovation(GROUP) Co.,Ltd.
大数据发展的问题与方向 中国信通院云大所.
《大数据导论(通识课版)》 第6章 大数据思维 (PPT版本号:2019年秋季学期)
《大数据导论(通识课版)》 教材官网: 第5章 大数据安全 (PPT版本号:2019年秋季学期)
Presentation transcript:

Big Data Ecosystem – Hadoop Distribution

巨量資料的市場預測 http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017

熱門的巨量資料主題 資訊系統的Big Data熱門主題 Hadoop NoSQL Analytics Hadoop software and related hardware and services; NoSQL database software and related hardware and services; Next-generation data warehouses/analytic database software and related hardware and services; Non-Hadoop Big Data platforms, software, and related hardware and services; In-memory – both DRAM and flash – databases as applied to Big Data workloads; Data integration and data quality platforms, tools and services as applied to Big Data deployments; Advanced analytics and data science platforms, tools and services; Business intelligence and data visualization platforms, tools and services as applied to Big Data use cases; Analytic and transactional applications and services as applied to Big Data use cases; Cloud-based Big Data services including infrastructure, platform and software delivers as a service. 資訊系統的Big Data熱門主題 Hadoop NoSQL Analytics http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017

兩種處理巨量資料的手段 目前處理巨量資料的手段分成兩大類: RDBMS vs. Hadoop / HBase 加強單一伺服器的儲存與運算能力,也就是垂直成長 透過串聯多個伺服器的方式來橫向成長 RDBMS vs. Hadoop / HBase Scale-up and Scale-out

認識Apache Foundation The Apache Software Foundation是致力於軟體開放原始碼的一個組織 請參閱www.apache.org Apache基金會的圖示是一根羽毛

認識Apache Hadoop Apache Hadoop是Apache基金會的頂級專案,代表獲得極高的重視,主要的目標是串連多台伺服器,並讓巨量資料可在此叢集上運算 請參閱hadoop.apache.org Hadoop的吉祥物是一隻大象

Hadoop系統的組成 Hadoop系統的基本模組包括: Hadoop Common:支援整個叢集系統的共通工具 Hadoop Distributed File System (HDFS):分散式的檔案系統,提供巨量資料的快速存取 Hadoop YARN:叢集上的工作排程及資源管理 Hadoop MapReduce:基於YARN的平行處理程式 Hadoop 基本模組 Hadoop Common HDFS YARN MapReduce

Hadoop-related project 我們通常會說Hadoop Ecosystem(生態系),因為Hadoop系統通常包括數種不同功能的工具,在Apache基金會之中主要包括下列工具的開發專案: Ambari™ Avro™ Cassandra™ Chukwa™ HBase™ Hive™ Mahout™ Pig™ Spark™ Tez™ ZooKeeper™ Hadoop Ecoystem Hadoop-Related Projects Hadoop Common HDFS YARN MapReduce

面對巨量資料的方式 從應用的角度,可運用各種應用系統Applications Collection 資料蒐集 資料量很大時,須考慮資料產生與處理的速度 Storage 資料儲存,或者應用公有雲Cloud的架構 Computing 資料計算,泛指各種加值處理 Analytics, Statistics, Data Mining, Machine Learning 資料分析 一切就緒後,開始進行資料分析,包括使用統計方法,或是機器學習的方式 Visualization 資料視覺化 Business Model 套用商業模式 所有資料處理與分析的目標,須與商業上的目標結合

先解決大數據的儲存需求 *數據分析人員可以撰寫MapReduce程式來處理資料 *也可以用Hadoop eco system中的各種工具來處理 Hadoop 分散式系統 Hardware

再解決大數據的結構化 *數據分析人員以HBase儲存結構化的巨量資料 HBase 巨量資料庫系統 Hadoop 分散式系統 Hardware

進行數據分析 分析工具(常見的R) HBase巨量資料庫 Hadoop 分散式系統 *數據分析人員可選擇擅長的資料處理途徑,或是混搭數種方法 使用HBase工具進行查詢、新增meta 使用分析工具,套用函數 直接撰寫程式進行資料處理 資料分析演算法 A B C 分析工具(常見的R) HBase巨量資料庫 Hadoop 分散式系統 Hardware

非結構化與結構化巨量資料

非結構化 與 結構化 簡單來說  非結構化是還沒有結構化,要從頭到尾找資料:File  結構化是已經可以直接找到想要的資料內容:Table 欄位:Column 資料列:Row

兩者在資料分析的方式 非結構化資料的分析 先判斷哪些是欲處理的目標,建立Meta data 批次式的資料分析處理 結構化資料的分析 Table的結構可以直接進行資料的 增 刪 改 查 Random Access 適合分析過程中的資料暫存、加值、轉換等應用

資料處理與分析架構 Analysis Structural Data (HBase) Un-structural Data (HDFS) Hadoop eco system 蒐集/儲存

資料分析的流程 判斷哪些是欲處理的目標,思考如何建立Meta 嘗試分析整體非結構化資料(可能非常耗時) 分析的經驗: 並非一定循序式的處理,有可能跳過某步驟,也有可能跳回前幾個步驟,通常視需求而決定。 撰寫MapReduce程式進行分散式處理 將部份資料進行結構化處理(轉換進HBase) 設計與調整分析演算法(常見的工具:R, Spark, …) 資料分析結果呈現與視覺化設計