Big Data : the Trends, Challenges and Solutions 淺談海量資料的趨勢、挑戰與因應對策 Big Data : the Trends, Challenges and Solutions Jazz Wang Yao-Tsung Wang jazz@nchc.org.tw
Haduzilla / Hadop4Win / Ezilla WHO AM I ? 這傢伙是誰啊?JAZZ? 講者介紹: 國網中心 王耀聰 副研究員/交大電控八九級碩士 jazz@nchc.org.tw 所有投影片、參考資料與操作步驟均在網路上 http://trac.nchc.org.tw/cloud 由於雲端資訊變動太快,愛護地球,請減少不必要之列印。 行動力薄弱的開發者 TRTC WSU/ Haduzilla / Hadop4Win / Ezilla FOSS使用者 Debian/Ubutnu Access Grid Motion/VLC Red5 Debian Router DRBL/Clonezilla Hadoop 推廣者 DRBL/Clonezilla Partclone/Tuxboot Hadoop Ecosystem
Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 Who is key player ? 誰是成功關鍵
WHAT What is Big Data ? 何謂海量資料 趨勢 定義 挑戰:管理維度 The Six Dimensions 定義 Definitions 趨勢 Trends Source: http://www.2010taipeiexpo.tw/ct.asp?xItem=17186&CtNode=5952&mp=3
Trends …. It's all about Buzzwords. 「趨勢」亦或「流行語」? Web 3 Trends …. It's all about Buzzwords ..... 「趨勢」亦或「流行語」? Web 3.0, Cloud Computing, Social Network, Big Data, …. 語意網(Semantic Web)從2001年開始制定標準後,逐漸下滑。而同義詞Web 3.0也呈現相似趨勢。 海量資料(Big Data)與其關鍵技術Hadoop,則仍在上揚中。 整體而言,雲端運算(Cloud Computing)與社交網路(Social Network)呈現上揚。且社交網路比雲端運算還引人注目。
Trends of Market Needs 市場需求趨勢 美國軟體就業市場分析,根據indeed與simply hired兩間公司的趨勢觀察,都得到一樣的結果: Big Data > Cloud Computing > Hadoop > NoSQL Gartner CIO Agenda 2012 前三名: [1] Business Intelligence (Big Data) [2] Mobile technology [3] Cloud Computing 參考來源:http://www.gartner.com/DisplayDocument?id=1524714
How BIG? 讓我們先來認識一下容量單位
Data Explosion!!始於2007的「資料大爆炸」時代 2007年,IDC預估2010年會成長六倍!(相較2006年) 2006 161 EB 2010 988 EB (預測) 出處:The Expanding Digital Universe, A Forecast of Worldwide Information Growth Through 2010, March 2007, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf
Data Explosion!!始於2007的「資料大爆炸」時代 2009年,IDC預估2011年會成長十倍!(相較2006年) 2006 161 EB 2007 281 EB 2010 988 EB (預測) 2011 1773 EB (預測) 出處:The Diverse and Exploding Digital Universe, An Updated Forecast of Worldwide Information Growth Through 2011 March 2008, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf
Data expanded 2x each year !!每年約略兩倍 追蹤歷年的IDC數據: 2006 161 EB 2007 281 EB 2008 487 EB 2009 800 EB (0.8 ZB) 2010 988 EB (預測) 2010 1200 EB (1.2 ZB) 2011 1773 EB (預測) 2011 1800 EB (1.8 ZB) 景氣差而成長趨緩? 或受新技術抑制? 出處:Extracting Value from Chaos, June 2011, An IDC White Paper - sponsored by EMC http://www.emc.com/collateral/about/news/idc-emc-digital-universe-2011-infographic.pdf
What is Big Data?! 何謂『海量資料』? 海量資料泛指單一資料集大小介於數十TB至數PB的資料。 'Big Data' = few dozen TeraBytes to PetaBytes in single data set. 多個檔案,容量10TB 一個資料庫,容量10TB 一個檔案,容量10TB
Gartner Big Data Model ? 海量資料的模型? 海量資料的挑戰在於如何管理「數量」、「增加率」與「多樣性」 Volume 資料數量 (amount of data) Velocity 資料增加率 (speed of data in/out) Variety 資料多樣性 (data types, sources) Batch (批次作業) Realtime (即時資料) TB EB Unstructured 非結構化資料 Semi-structured 半結構化資料 Structured 結構化資料 PB 參考來源: [1] Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety" (6 February 2001) [2] Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, June 2011
Six Dimensions of Big Data? 六個維度? Velocity 資料增加率 Volume 資料數量 Variety 資料多樣性 資料驗證 Validation 資料複雜度 Complexity 資料族系 Lineage Source: Big Data, not Big Problems, http://www.talend.com/products-big-data/
12D of Information Management? 12個維度? 品質管控 權限管控 Big Data 只是終極 資訊管理 的開端! 數量管控 Source: Gartner (March 2011), 'Big Data' Is Only the Beginning of Extreme Information Management, 7 April 2011, http://www.gartner.com/id=1622715
Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 智慧 Wisdom 知識 Knowledge 資料 Data WHY
Can Machine understand You? 讓機器更懂你? http://www.ettoday.net/news/20120215/25085.htm
Evolution of Software / Service 軟體演化勢必走向『智能化』 行動版 隨時存取 Mobile Cloud Service 網路版 多人共享 Share Service Software 單機版 個人使用 Personal Software 實體 Physical Mobile Mail Web Mail E-Mail 信箱 Mailbox Mobile TV Web TV Ex. Youtube 電視盒 Setop Box 電視 TV M-Office Google Docs Office 打字機 Typer Writer Flash Wengo Skype 數位電話 PBX 電話 Telephone 微網誌 Twitter 部落格 Blog 電子佈告欄 BBS 佈告欄 Bullet Borad
The wisdom of Clouds (Crowds) 雲端序曲:雲端的智慧始終來自於群眾的智慧 2006年8月9日 Google執行長施密特(Eric Schmidt)於SES'06會議中首次使用 「雲端運算(Cloud Computing)」來形容無所不在的網路服務 2006年8月24日 Amazon以Elastic Compute Cloud命名其虛擬運算資源服務 Source: http://www.cnet.co.uk/i/c/blg/cat/software/cloudcomputing/clouds1.jpg
Data is the source of Wisdom !! 用雲掌握資料,加以分析,形成智能給端用 雲端設計新思維:端的智能來自於雲的服務 Devices share the wisdom of Cloud 雲 資料中心 提供服務 端 各類裝置 存取服務
Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 智慧服務 SaaS 分析平台 PaaS 基礎建設 IaaS WHEN
Roadmap to build Your Enterprise Cloud !! 佈建企業雲端的時程規劃 智慧服務 SaaS 分析平台 PaaS 目前多數 還在這裡 基礎建設 IaaS 初期常態租賃 Static 後期動態租賃 Dynamic 建立私有雲 Build Private Cloud 導入公有雲 Adopt Public Cloud 形成混合雲 Be Hybrid Cloud
Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 智慧服務 SaaS 資料安全 Security 儲存虛擬化 Dedup. HOW
Three Solutions !! 三種服務模式vs.三類因應對策 SaaS Software as a Service 軟體即服務 Web 2.0 網頁服務 (A) 提供API介面 (B) 分散式資料庫 PaaS Platform as a Service 平台即服務 Data Analysis 資料分析 (A) 資料整合 (B) 資料探勘 IaaS Infrastructure as a Service 架構即服務 Virtualization 虛擬化技術 (A) 儲存虛擬化 (B) 備援與加密
What is Virtualization ?? 虛擬化技術有哪些呢?? Application Virtualization 應用程式虛擬化 Source: http://en.wikipedia.org/wiki/Virtualization 桌面虛擬化 Desktop Virtualization Client Virtualization Presentation Virtualization 顯示虛擬化 OS-level Virtualization 作業系統虛擬化 Network Virtualization 網路虛擬化 Storage Virtualization 儲存虛擬化
Deduplication? 去除重複儲存的資料? 資料整合為跨單位整合的第一步!! 商業硬體方案:EMC、NetApp 自由軟體方案: ZFS、Lessfs、SDFS...
Business Intelligence 商業智慧 Data Mining 資料探勘 若想要達成商業智慧的目標,請先做資料整合、資料倉儲與探勘平台 Data Warehouse 資料倉儲 Data Integration 資料整合 ERP 金流 CRM 人事 MES 倉管物流 KMS 資訊流 TOM 資訊流 Logs / Files 系統日誌 Compute 計算設施 虛擬化 Virtualization Network 網路設施 Storage 儲存設施
Data Integration ? 怎麼做資料整合? Source : http://en.wikipedia.org/wiki/Data_integration Figure 2: Simple schematic for a data- integration solution. A system designer constructs a mediated schema against which users can run queries. The virtual database interfaces with the source databases via wrapper code if required. Figure 1: Simple schematic for a data warehouse. The ETL process extracts information from the source databases, transforms it and then loads it into the data warehouse.
Data Mining & Visualization 資料探勘與視覺化 Hadoop Report Sqoop
Why should we care? 為何需要關切 Agenda 演講大綱 What is Big Data ? 何謂海量資料 Why should we care? 為何需要關切 When to deploy it ? 何時導入技術 How to handle it ? 三大因應策略 Who is key player ? 誰是成功關鍵 WHO
財星雜誌(FORTUNE)等均報導今年最熱門的職缺是「資料科學家」! Data Scientist !! 資料科學家!! 會「統計」的人照過來! 財星雜誌(FORTUNE)等均報導今年最熱門的職缺是「資料科學家」! Source : http://tech.fortune.cnn.com/2011/09/06/data-scientist-the-hot-new-gig-in-tech/ http://visualoop.tumblr.com/post/4052912103/the-role-of-the-data-scientist
The way toward Business Inteligence 通往商業智慧的漫長道路 Storage Virtualization 儲存虛擬化 Network Virtualization 網路虛擬化 OS-level Virtualization 作業系統虛擬化 Data Integration 資料整合 Data Warehouse 資料倉儲 Data Mining 資料探勘 Business Inteligence 商業智慧
What we learn today ? 海量資料泛指介於TB到PB之間的資料集!! 儲存虛擬化、資料備援與加密、分析平台 WHAT 先建私有雲的虛擬化架構,然後才建分析平台 Build Private IaaS first, then PaaS !! 透過統計分析人類的資料,讓機器更有智慧~ Make Machine Smart ! 海量資料泛指介於TB到PB之間的資料集!! few dozen TeraBytes to PetaBytes in single data set !! 資料科學家!接下來的講者都是佼佼者! Data Scientist ! Next Speaker are all Key Players .... 儲存虛擬化、資料備援與加密、分析平台 Deduplication , Data Recovery / Encryption, Data Analysis WHY WHEN HOW WHO
Slides - http://trac.nchc.org.tw/cloud Questions? Slides - http://trac.nchc.org.tw/cloud Jazz Wang Yao-Tsung Wang jazz@nchc.org.tw