Big Data : the Trends, Challenges and Solutions

Slides:



Advertisements
Similar presentations
13-1 人工智慧 13-2 雲端運算 13-3 感測網路與物聯網 13-4 生物資訊 13-5 計算機萬能嗎?
Advertisements

云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
云计算及安全 ——Cloud Computing & Cloud Security
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
职业教育网络学习空间建设的实践与思考 江苏省南京工程高等职业学校.
雲端科技與智慧生活.
Big Data Ecosystem – Hadoop Distribution
淺談雲端運算趨勢、關鍵技術 及其於工業自動化之可能應用 Jazz Wang Yao-Tsung Wang
第五章 資訊科技基礎建設與新興科技.
Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop 叢集 Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop.
云计算应用对比分析 李洁睿 周良俊 2017/3/8.
Alibaba’s Practice on Data Security Kathy Pan Alibaba Data Economy Research Center Alibaba Research Institute.
Business Model and Core Technologies of Cloud Computing
十二年國民基本教育 高雄區入學方式說明 報告人:中山工商 楊薇主任.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
VMWARE 大藍圖 SOFTWARE-DEFINED ENTERPRISE
上海地面通云主机产品 产品介绍 通信成就梦想 未来你我把握
思科Oracle RAC解决方案 Starry Wu UCS -GC.
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
全球科研项目整合检索系统 海研网
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
基于大数据的智慧北京推进策略 北京市经济和信息化委员会 2014年6月.
Handel Cheng, Ph.D. Dr. Jane Formula Tech. CO., LTD.
資訊管理 第三章 數位化企業.
大数据在医疗行业的应用.
Homework 4 an innovative design process model TEAM 7
資訊管理個案 兼任講師 黃志燻.
Microsoft Access 第十二組 黃彥維 陳重嘉.
3G时代的云计算 中国云计算专家委员会 刘鹏 中国网格: 中国云计算:
顧客關係管理: CRM: Customer Relationship Management
Introduction to Cloud Computing Services and its Applications
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
作業系統 補充: 雲端運算.
圖形溝通大師 Microsoft Visio 2003
Working with Databases (II) 靜宜大學資管系 楊子青
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
物流管理的层次 战略 战术 运营 执行 .目标 .供货政策,服务标准 .物流网设计 作什么 制定目标,政策 .需求预测
文字探勘與知識工程 Text Mining & Knowledge Engineering
國立屏東高級工業職業學校 雲端網路及 雲端開系統介紹
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
CHAPTER 9 供應鏈管理系統.
彭丰林 王丹 祁民 沈晓阳 张健 黄清华 中国虚拟地磁台建设构想 PENG Fenglin, WANG Dan, QI Min, SHEN Xiaoyang, HUANG Qinghua 彭丰林 王丹 祁民 沈晓阳 张健 黄清华
新世代電子商務(二): 裝置服務化與行動商務
云计算概述 云计算的概念与发展历程 体系结构 应用案例 优缺点分析 云计算前景 SI TEAM 孟茶
软件工程基础 云计算概论 刘 驰.
Cloud Computing – Challenges & Opportunities
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
Customer Expectations of Service
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
Big Data : the Trends, Challenges and Solutions
資料庫 靜宜大學資管系 楊子青.
Real-Time System Software Group Lab 408 Wireless Networking and Embedded Systems Laboratory Virtualization, Parallelization, Service 實驗室主要是以系統軟體設計為主,
Guide to a successful PowerPoint design – simple is best
雲端運算的基石(1) 虛擬化技術簡介
SoC 與微控制器的發展 朱亞民.
班級:四企四B 指導老師:李文瑞老師 組員: 莊煜麒4950L089 黃暉原4950L109
第九組報告 指導教授 : 林振緯 組員 : 資工四甲 曹又升 黃晏林 黃冠惟
Enterprise Resource Planning System 企業資源規劃系統
Introduction to Service Science 课程概述
電子商務 第5章 應用技術發展.
雲端架構對企業外部管理與內部管理的改變.
說故事競爭力 如何成為說故事達人 第二組 黃淑英 邱羽伶 陳怡彤
第 18 章 雲端計算.
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
Introduction to Cloud Computing Services and its Applications
顧客關係管理介紹 班級:資管三德 姓名:樂書齊 學號:
Introduction to Mobile Computing
Presentation transcript:

Big Data : the Trends, Challenges and Solutions 淺談海量資料的趨勢、挑戰與因應對策 Big Data : the Trends, Challenges and Solutions Jazz Wang Yao-Tsung Wang jazz@nchc.org.tw

Haduzilla / Hadop4Win / Ezilla WHO AM I ? 這傢伙是誰啊?JAZZ? 講者介紹: 國網中心 王耀聰 副研究員/交大電控八九級碩士 jazz@nchc.org.tw 所有投影片、參考資料與操作步驟均在網路上 http://trac.nchc.org.tw/cloud 由於雲端資訊變動太快,愛護地球,請減少不必要之列印。 行動力薄弱的開發者 TRTC WSU/ Haduzilla / Hadop4Win / Ezilla FOSS使用者 Debian/Ubutnu Access Grid Motion/VLC Red5 Debian Router DRBL/Clonezilla Hadoop 推廣者 DRBL/Clonezilla Partclone/Tuxboot Hadoop Ecosystem

Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 Who is key player ? 誰是成功關鍵

WHAT What is Big Data ? 何謂海量資料 趨勢 定義 挑戰:管理維度 The Six Dimensions 定義 Definitions 趨勢 Trends Source: http://www.2010taipeiexpo.tw/ct.asp?xItem=17186&CtNode=5952&mp=3

Trends …. It's all about Buzzwords. 「趨勢」亦或「流行語」? Web 3 Trends …. It's all about Buzzwords ..... 「趨勢」亦或「流行語」? Web 3.0, Cloud Computing, Social Network, Big Data, …. 語意網(Semantic Web)從2001年開始制定標準後,逐漸下滑。而同義詞Web 3.0也呈現相似趨勢。 海量資料(Big Data)與其關鍵技術Hadoop,則仍在上揚中。 整體而言,雲端運算(Cloud Computing)與社交網路(Social Network)呈現上揚。且社交網路比雲端運算還引人注目。

Trends of Market Needs 市場需求趨勢 美國軟體就業市場分析,根據indeed與simply hired兩間公司的趨勢觀察,都得到一樣的結果: Big Data > Cloud Computing > Hadoop > NoSQL Gartner CIO Agenda 2012 前三名: [1] Business Intelligence (Big Data) [2] Mobile technology [3] Cloud Computing 參考來源:http://www.gartner.com/DisplayDocument?id=1524714

How BIG? 讓我們先來認識一下容量單位

Data Explosion!!始於2007的「資料大爆炸」時代 2007年,IDC預估2010年會成長六倍!(相較2006年) 2006 161 EB 2010 988 EB (預測) 出處:The Expanding Digital Universe, A Forecast of Worldwide Information Growth Through 2010, March 2007, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf

Data Explosion!!始於2007的「資料大爆炸」時代 2009年,IDC預估2011年會成長十倍!(相較2006年) 2006 161 EB 2007 281 EB 2010 988 EB (預測) 2011 1773 EB (預測) 出處:The Diverse and Exploding Digital Universe, An Updated Forecast of Worldwide Information Growth Through 2011 March 2008, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf

Data expanded 2x each year !!每年約略兩倍 追蹤歷年的IDC數據: 2006 161 EB 2007 281 EB 2008 487 EB 2009 800 EB (0.8 ZB) 2010 988 EB (預測) 2010 1200 EB (1.2 ZB) 2011 1773 EB (預測) 2011 1800 EB (1.8 ZB) 景氣差而成長趨緩? 或受新技術抑制? 出處:Extracting Value from Chaos, June 2011, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/about/news/idc-emc-digital-universe-2011-infographic.pdf

What is Big Data?! 何謂『海量資料』? 海量資料泛指單一資料集大小介於數十TB至數PB的資料。 'Big Data' = few dozen TeraBytes to PetaBytes in single data set. 多個檔案,容量10TB 一個資料庫,容量10TB 一個檔案,容量10TB

Gartner Big Data Model ? 海量資料的模型? 海量資料的挑戰在於如何管理「數量」、「增加率」與「多樣性」 Volume 資料數量 (amount of data) Velocity 資料增加率 (speed of data in/out) Variety 資料多樣性 (data types, sources) Batch (批次作業) Realtime (即時資料) TB EB Unstructured 非結構化資料 Semi-structured 半結構化資料 Structured 結構化資料 PB 參考來源: [1] Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety" (6 February 2001) [2] Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, June 2011

Six Dimensions of Big Data? 六個維度? Velocity 資料增加率 Volume 資料數量 Variety 資料多樣性 資料驗證 Validation 資料複雜度 Complexity 資料族系 Lineage Source: Big Data, not Big Problems, http://www.talend.com/products-big-data/

12D of Information Management? 12個維度? 品質管控 權限管控 Big Data 只是終極 資訊管理 的開端! 數量管控 Source: Gartner (March 2011), 'Big Data' Is Only the Beginning of Extreme Information Management, 7 April 2011, http://www.gartner.com/id=1622715

Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 智慧 Wisdom 知識 Knowledge 資料 Data WHY

Can Machine understand You? 讓機器更懂你? http://www.ettoday.net/news/20120215/25085.htm

Evolution of Software / Service 軟體演化勢必走向『智能化』 行動版 隨時存取 Mobile Cloud Service 網路版 多人共享 Share Service Software 單機版 個人使用 Personal Software 實體 Physical Mobile Mail Web Mail E-Mail 信箱 Mailbox Mobile TV Web TV Ex. Youtube 電視盒 Setop Box 電視 TV M-Office Google Docs Office 打字機 Typer Writer Flash Wengo Skype 數位電話 PBX 電話 Telephone 微網誌 Twitter 部落格 Blog 電子佈告欄 BBS 佈告欄 Bullet Borad

The wisdom of Clouds (Crowds) 雲端序曲:雲端的智慧始終來自於群眾的智慧 2006年8月9日 Google執行長施密特(Eric Schmidt)於SES'06會議中首次使用 「雲端運算(Cloud Computing)」來形容無所不在的網路服務 2006年8月24日 Amazon以Elastic Compute Cloud命名其虛擬運算資源服務 Source: http://www.cnet.co.uk/i/c/blg/cat/software/cloudcomputing/clouds1.jpg

Data is the source of Wisdom !! 用雲掌握資料,加以分析,形成智能給端用 雲端設計新思維:端的智能來自於雲的服務 Devices share the wisdom of Cloud 雲 資料中心 提供服務 端 各類裝置 存取服務

Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 智慧服務 SaaS 分析平台 PaaS 基礎建設 IaaS WHEN

Roadmap to build Your Enterprise Cloud !! 佈建企業雲端的時程規劃 智慧服務 SaaS 分析平台 PaaS 目前多數 還在這裡 基礎建設 IaaS 初期常態租賃 Static 後期動態租賃 Dynamic 建立私有雲 Build Private Cloud 導入公有雲 Adopt Public Cloud 形成混合雲 Be Hybrid Cloud

Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 智慧服務 SaaS 資料安全 Security 儲存虛擬化 Dedup. HOW

Three Solutions !! 三種服務模式vs.三類因應對策 SaaS Software as a Service 軟體即服務 Web 2.0 網頁服務 (A) 提供API介面 (B) 分散式資料庫 PaaS Platform as a Service 平台即服務 Data Analysis 資料分析 (A) 資料整合 (B) 資料探勘 IaaS Infrastructure as a Service 架構即服務 Virtualization 虛擬化技術 (A) 儲存虛擬化 (B) 備援與加密

What is Virtualization ?? 虛擬化技術有哪些呢?? Application Virtualization 應用程式虛擬化 Source: http://en.wikipedia.org/wiki/Virtualization 桌面虛擬化 Desktop Virtualization Client Virtualization Presentation Virtualization 顯示虛擬化 OS-level Virtualization 作業系統虛擬化 Network Virtualization 網路虛擬化 Storage Virtualization 儲存虛擬化

Deduplication? 去除重複儲存的資料? 資料整合為跨單位整合的第一步!! 商業硬體方案:EMC、NetApp 自由軟體方案: ZFS、Lessfs、SDFS...

Business Intelligence 商業智慧 Data Mining 資料探勘 若想要達成商業智慧的目標,請先做資料整合、資料倉儲與探勘平台 Data Warehouse 資料倉儲 Data Integration 資料整合 ERP 金流 CRM 人事 MES 倉管物流 KMS 資訊流 TOM 資訊流 Logs / Files 系統日誌 Compute 計算設施 虛擬化 Virtualization Network 網路設施 Storage 儲存設施

Data Integration ? 怎麼做資料整合? Source : http://en.wikipedia.org/wiki/Data_integration Figure 2: Simple schematic for a data- integration solution. A system designer constructs a mediated schema against which users can run queries. The virtual database interfaces with the source databases via wrapper code if required. Figure 1: Simple schematic for a data warehouse. The ETL process extracts information from the source databases, transforms it and then loads it into the data warehouse.

Data Mining & Visualization 資料探勘與視覺化 Hadoop Report Sqoop

Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 Who is key player ? 誰是成功關鍵 WHO

財星雜誌(FORTUNE)等均報導今年最熱門的職缺是「資料科學家」! Data Scientist !! 資料科學家!! 會「統計」的人照過來! 財星雜誌(FORTUNE)等均報導今年最熱門的職缺是「資料科學家」! Source : http://tech.fortune.cnn.com/2011/09/06/data-scientist-the-hot-new-gig-in-tech/ http://visualoop.tumblr.com/post/4052912103/the-role-of-the-data-scientist

The way toward Business Inteligence 通往商業智慧的漫長道路 Storage Virtualization 儲存虛擬化 Network Virtualization 網路虛擬化 OS-level Virtualization 作業系統虛擬化 Data Integration 資料整合 Data Warehouse 資料倉儲 Data Mining 資料探勘 Business Inteligence 商業智慧

What we learn today ? 海量資料泛指介於TB到PB之間的資料集!! 儲存虛擬化、資料備援與加密、分析平台 WHAT 先建私有雲的虛擬化架構,然後才建分析平台 Build Private IaaS first, then PaaS !! 透過統計分析人類的資料,讓機器更有智慧~ Make Machine Smart ! 海量資料泛指介於TB到PB之間的資料集!! few dozen TeraBytes to PetaBytes in single data set !! 資料科學家!接下來的講者都是佼佼者! Data Scientist ! Next Speaker are all Key Players .... 儲存虛擬化、資料備援與加密、分析平台 Deduplication , Data Recovery / Encryption, Data Analysis WHY WHEN HOW WHO

Slides - http://trac.nchc.org.tw/cloud Questions? Slides - http://trac.nchc.org.tw/cloud Jazz Wang Yao-Tsung Wang jazz@nchc.org.tw