Presentation is loading. Please wait.

Presentation is loading. Please wait.

Hadoop/HDFS 實務應用 Onedollar.

Similar presentations


Presentation on theme: "Hadoop/HDFS 實務應用 Onedollar."— Presentation transcript:

1 Hadoop/HDFS 實務應用 Onedollar

2 對不起,您今天提領的現金已經超過提款機的每日提款限額囉
喔!我想要訂購一台室內跑步機送給我老婆當生日禮物 王先生您好,先跟您核對一下個人資料:您住在民生路二段34號5樓,您家電話是 ,您的公司電話是 ,您的行動電話是 。是嗎? 根據您太太的醫療紀錄,她有膝關節疼痛的毛病,不適合做跑步運動 陳小姐妳好, 我想要……… 您可以試試看我們新推出的全方位按摩椅,不必做激烈運動也能達到全身運動的效果,而且您自己也可以使用喔! 為什麼? 王先生,室內跑步機不適合您太太喔。 我們要先安排司機送貨路線,最快大約要三小時才能送到,如果您等不及,可以自己開車過來載 王先生,因為我們已經連線到『神機妙算客服系統』 對不起,您今天提領的現金已經超過提款機的每日提款限額囉 沒錯!你怎麼知道得這麼詳細? 喔?我手邊的現金應該還夠,妳們快把按摩椅送過來吧 好的!我立刻請庫房幫您備貨。不過,王先生,要請您開慢一點,因為您今年總共已經被開了13張超速罰單了! 您所住的房子臥室有五坪大,而您只購買過一張雙人床和一座四尺寬的衣櫃,剩下來的空間放這台按摩椅應該沒問題喔! 您不是剛買了一輛Discovery休旅車,車號是KG-3838,用這台車載按摩椅剛剛好 喔!我的身分證號碼是A 那……妳能不能推 薦其他的禮物? 喔….. 妳怎麼知道 我剛好想買按摩椅呢? 喔!那我先去領錢,妳們趕快把按摩椅送過來吧! 對不起,要請您用現金付款,因為您的兩張信用卡都已經刷爆了,現在還欠銀行六萬七千八百三十五元 因為根據google的使用紀錄,您上星期用『按摩椅』這個關鍵字搜尋了24次 奇奇電視購物您好,敝姓陳,很高興為您 服務。 喔!可是我怕按摩椅 太大,我的臥室會放不下 喔!那這台按摩椅要賣多少錢呢? 什麼?! 先生,請先告訴我您的身分證號碼 啊?好吧!那我自己過去載好了 ……………… 請問妳們有 收信用卡嗎? 今天我們剛好有做特惠,原價一萬元,現在只賣五千元

3 資料探勘Data Mining 運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識,要實現『神機妙算客服系統』所提供的個人化服務,並非遙不可及! 企業現階段急需運用資料探勘技術,輔助決策者在對的時刻做對的決策! 學術界積極培養資料探勘技術應用人才為當務之急!

4 資料探勘的定義和範圍 資料探勘(data mining)的定義 資料探勘的整體架構 使用者溝通介面 資料庫 應用領域知識 探勘知識 探勘方式
圖1 資料探勘的整體架構

5 資料探勘的目的 「從大量資料中挖掘有價值的資訊,供管 理人員做為決策參考,開創新商業契機」 成功經驗 美國超級市場(Wal-Mart)
銷售資料分析發現,尿布和啤酒常會一起購買,於是將商品放在一起促銷,得到意想不到的業績成長 美國銀行 (Bank of America) 從客戶資料中,找出既有客戶申請貸款的時機, 規劃全新行銷方案;該方案推出後,接受率立即 成長兩倍以上 資料探勘(data mining)的定義 資料探勘的特性 資訊系統大量累積資料 在大量累積的資料中萃取;利用80/20%理論來產生目標資料集 資料探勘是利用演算法,例如:機器學習的演算法 資料探勘的分析是用啟發性商業價值 從大量資料中找尋隱藏性的知識與規則 具有商業價值

6 資料探勘的應用 以類似PC-Home之線上購物商店為例 可獲取之資料 可進行之資料探勘應用: 顧客居住地區、年齡、性別、個人資料、交易紀錄
建立個人化行銷模式 找出潛在的客戶名單 了解顧客族群的屬性 預測目前哪些顧客可能流失

7 資料探勘的興起 歸功三項技術的成熟 大量資料的收集技術: 高效能的多處理器電腦架構 資料探勘演算法的成熟
網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟 高效能的多處理器電腦架構 平行處理架構,使大量資料處理能在可容忍的時間內完成 資料探勘演算法的成熟 包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、 基因演算法( genetic algorithms ) …等等

8 資料探勘的功能 預測未來的趨勢 找出未知的樣式 股市行情預測 天氣預測 地震預測 消費行為預測 商品出貨量預測…等等
找出會購買筆記型電腦的顧客特徵 依消費習性相近的顧客進行群組 推薦鑑別消費者可能會同時購買的商品組合…等等

9 何謂資料探勘(1) 學者曾對資料探勘做過的定義 Frawley Grupe & Owrang Fayyad Berry & Linoff
資料庫中挖掘潛在、明確、而且非常有用資訊的過程 Grupe & Owrang 從已存在的資料庫當中挖掘出專家仍未知的新事實 Fayyad 定義知識發掘 (Knowledge Discovery) 為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法,對大量資料分析,找出有意義的關係或法則。

10 何謂資料探勘(2) 資料探勘=資料庫之知識發掘(Knowledge Discovery in Databases,簡稱KDD)
從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識 「知識」指的就是一些規則 大型資料庫包括線上作業的資料庫 (On-line Database) 及資料倉儲 (Data Warehouse)…等等 知識範例 「如果顧客的年齡是在三十歲到四十歲之間,而且年收入是在四十萬到六十萬之間,那麼此顧客很有可能會購買筆記型電腦。」

11 資料探勘歷史 演進步驟 目標企業問題 應用技術 系統供應商 系統特性 檔案系統 (1960年代) 資料庫系統 (1970年代) 資料倉儲系統
“2002年12月筆記型 電腦的銷售明細為 何?” 電腦、磁帶、磁碟 IBM, CDC 傳遞歷史性 的靜態資料 資料庫系統 (1970年代) “IBM X31筆記型電 腦目前的售價是多 少?” 階層式資料庫(hierarchical ] database)、網路式資料庫 (network database)、關聯式 資料庫(relational database)、 結構化查詢語言(SQL) 、開 放性資料庫連結協定(ODBC) Oracle, Sybase, Informix, IBM, Microsoft 傳遞即時性 的單層次動 態資料 資料倉儲系統 (1990年代) “去年北部地區筆記 型電腦的總銷售量是 多少?其中台北市的 銷售量是多少?” 線上分析處理 (OLAP)、多 維度資料模 (multidimensional data model)、資料倉儲 (data warehouse) Pilot, Comshare, Arbor, Cognos, Microstrategy, 的多層次動 資料探勘系統 (現代) “明年筆記型電腦的 預估銷售量為何? 為 什麼?” 進階演算法、多處理器電腦 系統、大量資料儲存技術、 人工智慧 Pilot, Lockheed, IBM, SGI 傳遞預知 的、鑑往知 來的資訊

12 資料探勘的演進 資料庫 資料倉儲 資料探勘 資料 資訊 知識 資料操作員 資料分析師 管理決策者 專家系統 知識庫系統 決策支援系統

13 資料探勘的模型 主要有以下四種 資料分類 (data classification) 資料關連 (data association)
資料分群 (data clustering) 循序樣式探勘 (sequential pattern mining)

14 找出群組與組群之間的差異點,以及同一組群內各個變數的相似點
資料探勘的分類技術 資料探勘的分類種類 表1 資料探勘的分類技術重點表 (接下頁) 技術 行為方式 目的 方法 資料應用 公式量值 例子 預測 預測行為 推估未來的數值以及趨勢 趨勢 多種獨立自變數來分析出某個因變數 新的觀察值 預測其未來之刷卡消費量 分類 其屬性變數指派至所屬的群集 屬性分門別類 不同屬性變數 規則 訂定策略與保費 群聚 預測和 描述行為 找出群組與組群之間的差異點,以及同一組群內各個變數的相似點 相似 特性 特定變數 差異點量值 客戶消費集群

15 支持度(Support)以及可靠度(Confidence)
資料探勘的分類技術 資料探勘的分類種類 表1 資料探勘的分類技術重點表 技術 行為方式 目的 方法 資料應用 公式量值 例子 關聯性分析 描述行為 項目或屬性彼此之間的關聯性 關聯性 兩種資料一起被應用 支持度(Support)以及可靠度(Confidence) 一起銷售的擺置方式 順序 發生的先後順序關係 重新 組合 環境資料 順序關係 發生客戶失竊的先後順序 推估 預測行為 獲致某一屬性未知之值 推論 連續性數值 推估值 推估其信用卡消費量

16 資料探勘的分類技術 資料探勘的分類種類 表2 分類技術和演算法關聯表 演算法 預測 分類 群聚 順序 推估 關聯性分析 一般統計 *
聯結分析 案例式推理 購物籃分析 基因演算法 記憶基礎理解 群集偵測 決策樹 類神經網路

17 資料探勘的應用實例 (1) 成功案例 LTV鋼鐵公司(全美第三大) 美國匯豐銀行(HSBC-Bank-USA)
偵測品質問題,使不良品減少99% 美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘,用「生活方式」區隔進行行銷,對行銷資源做「最佳化規劃」,銷售量提高了50% Jubii(丹麥最受歡迎的入口網站) 運用資料探勘探索「哪一種瀏覽路徑最有可能促成交易?」,改善網站設計,使得瀏覽率提升30%~50%,媒體銷售業績成長10%~15%

18 資料探勘的應用實例(2) 金融保險業 零售製造業 醫療生技業 教育業
信用評等、客製化金融服務、客戶資產管理、呆帳分析、保險潛在客戶名單分析、直效行銷、分析購買行為、偵測信用卡詐騙行為、股匯市行情預測 零售製造業 分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策、連續銷售、促銷商品組合、DM名單、庫存分析 醫療生技業 預防醫學分析、院內感染分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析 教育業 學生來源分析、課程規劃、學習評量、適性化教學

19 資料探勘在顧客關係管理之應用 零售業者而言 銀行業者而言 保險業者而言 優點
瞭解顧客消費特性,發掘顧客採購模式,強化客戶關係,達到留住顧客目的 銀行業者而言 瞭解信用卡發放可能產生之弊端,找出最有利潤、忠誠度佳的顧客 保險業者而言 分析保戶要求理賠之模式,並可加強稽核,以防止詐財之發生 優點 有效地在不同層面增加公司收益,達成營運目標

20 資料探勘在網路行銷之應用 分析顧客於網站上之行為模式 應用範例 可用以下特性區分訪客的特質
當顧客拜訪網站時,往往提供許多寶貴的資料,如個人資料、點選的網頁內容、在網頁所停留的時間、利用搜尋引擎時所使用的關鍵字、以及顧客到訪網站的時間點等,企業可藉由分析這些資訊來瞭解顧客的行為模式,藉以提高顧客對公司所提供之產品與服務的滿意度。 應用範例 可用以下特性區分訪客的特質 地理區隔 包括訪客地址、收入、購買能力 人格特質 訪客之購買特性,是否為衝動性或精打細算型 訪客使用之資訊設備 網路頻寬、操作系統、瀏覽器或伺服器

21 資料探勘在網路入侵行為分析之應用 發掘異常網路行為 應用範例 傳統分析突發網路狀況,需很長時間
利用高速運算,分析異常網路行為、動態調整與更新防禦機制 應用範例 協助網管執行進階的網路控管,並動態調整與更新防禦機制,進而遏阻網路入侵攻擊的潛在威脅 協助網管建立正常網路行為模型、異常的行為模型

22 資料探勘在網路學習之應用 適性化網路學習(Adaptive E-learning) 應用範例 提供適合學習路徑給不同背景學習者
建構「學習概念圖(concept map)」規劃學生學習路徑 分析成績了解試題關連性,推導對應之概念 應用範例 利用關連法則探勘技術 分析學習者的學習成績並了解試題間的關連性 推導出相對應於試題之概念間的關連 找出可以幫助領域專家建構學習概念圖的法則 構建適切的課程概念圖。

23 資料探勘的工具 一般性套裝軟體 整合型系統 客製化軟體 將資料倉儲、資料探勘、及專家系統/決策支援系統整合 單純只做資料探勘工作
Cognos出品的SCENARIO ( Business Objects出品的BusinessMiner ( 一般性套裝軟體 單純只做資料探勘工作 IBM的Intelligent Miner SPSS的Clementine 客製化軟體 依照某企業體或是某行業的需要所量身訂做的軟體 針對零售業開發的KD1 針對信用卡詐欺或呆帳偵測所開發的HNC

24 Microsoft SQL Server SQL 7.0 SQL Server 2005(代號Yukon) SQL Server 2000
微軟率先推出綜合兩種特色的HOLAP(混雜式OLAP) 將資料存放在關聯式資料表 處理效率大幅增進 同時在最少的額外儲存空間下,能夠有不錯的查詢速度 SQL Server 2000 只有決策樹和群集分析兩種演算法 僅能進行部分的分類、分群和預測的功能 SQL Server 2005(代號Yukon) 包含了七種演算法 包括決策樹、類神經網路、貝氏演算法、序列群集分析、關連法則分析、迴歸樹(regression trees)、以及時間序列分析,增加許多大廠嚴重的競爭壓力 最新的版本是SQL Server 2014

25 DMAS運作方式 運作方式 利用簡單的視窗操作介面呼叫資料探勘引擎 直接撰寫JAVA 程式呼叫相關的應用程式介面來完成探勘的工作

26 未來的發展與挑戰 不同型態的資料處理 資料探勘演算法的效能 資料探勘結果的可用性及正確性 資料探勘結果的呈現方式
多重抽象層次中的互動式知識發掘 不同來源資料的整合 隱私保護與資料安全議題 更具預測能力的模型 更具延展性的模型 更具成本效益的模型 不斷進化成長的資料探勘標準 與關聯式資料庫的整合

27 Enterprise Data Architecture

28 Big Data 簡介 故事就從那一年開始

29 真實世界的故事 "大數據技術在電信行業中的應用", 中國聯通研究院王志軍, 2013

30 Big Data 定義 In information technology, big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications [Wikipedia] Top Ten Technology Trends for 2014

31 帶來Big Data 4’V 特性 IBM, 2012

32 改變中的世界 感知化(Instrumented) Smart Handset Security Surveillance
Smart Meter Car Navigation Sensors RFID

33 改變中的世界 聯網化 (Interconnected) Internet Internet of Things
Social Network

34 改變中的世界 智能化 (Intelligent) Smart Building Smart City Smart Traffic
Smart Government Smart Health Care

35 巨量與即時特性 根據IDC研究報告中指出,未來資料量的成長速度將超越摩爾定律。這些資料將從過去結構性資料,擴大到非結構綜合性資料,計算單位將是ZB(1兆GB)

36 巨量資料的多元性與不確定性 預估至2018年,80%的資料具不確定性!

37 巨量資料與商業智慧的差異 “Introduction to Analytics and Big Data - Hadoop”, SNIA

38 企業面臨各種層級的問題

39 巨量趨勢機會:充分利用所有資料來源 和內容以建構洞察見解
企業營運仰賴的資訊已超越傳統內部資料,並朝向感應器、測量器、追蹤、social media 等外部多元異質資訊來源發展 隨著各種感應器(sensor)、社交網路、影音檔案等資料來源增加,企業從巨量資料中蒐集、萃取並分析出有商業價值的資源,以應對日益變化業務挑戰,也突顯網路通訊在巨量資料交互運作下,即時互動與反應上的必要性

40 巨量趨勢機會:分析過去,預測展望, 到即時優化!

41 巨量資料帶來的變革 資料在以前被視為垃圾,現在卻被視為資產
網際網路的崛起已打破這項鐵律,99% 的產品都有機會銷售,「長尾」商品將鹹魚翻身。

42 巨量資料帶來的變革

43 技術切入點選擇

44 如何從巨量資料獲益

45 Big Data Professionals
平台管理師(Platform Specialist) 規劃、設計、建置、與管理Big Data平台 熟悉硬體規格、各廠商軟體版本與功能、參數優化、 效能監控、異常處理等 資料工程師(Data Engineer) 管理資料生命週期與建立資料處理流程 熟悉資料整合(Data Integration)、資料品質(Data Quality)、與資料治理(Data Governance)相關技術 資料科學家(Data Scientist) 定義問題、選擇技術、進行實驗、與提供最佳實踐 熟悉各式分析技術,包含統計分析、資料採礦、預測模型、自然語言處理,內容分析,與社交網路分析

46 巨量資料趨勢 1.大數據將從概念走向實用,並與雲計算服務整合 2.Hadoop將擺脫廉價數據倉庫的形象,成為企業數據處理的通 用計算架構 3.越來越多的企業意識到消費者數據分析的重要性 4.營銷大數據將迎來大發展,重點領域包括廣告、促銷和用戶行為分析 5.掌握大數據分析技術的業務部門分析人員將比大數據科學家對企業更加重要 6.Web of Things,將利用移動設備和傳感器來觀察並監控環境,並加強現實世界物體之間的協同 7.R將取代傳統SAS方案成為主流分析技術 8.大量即時互動應用,包括web應用、移動應用、社交應用將建築在Hadoop平臺之上 9.Hadoop將進化得更安全、更多的運營管理和資源管理等企業需要的功能 10.至少會有一家Hadoop或NoSQL提供商上市

47 RDBMS遭遇的瓶頸 Don’t handle mixed unstructured data Don’t parallelize well
Difficult to scale-out Can’t handle huge data volume

48 Big Data 系統架構設計目標

49 Reference Architecture

50 What’s Apache Hadoop

51 Apache Hadoop 生態圈

52 Modern Data Architecture

53 Apache YARN

54 YARN Architecture

55 Hadoop Distributed File System
Design Principles 分散式檔案儲存技術,用來儲存數百TB的檔案,其特性為:WORM(Write Once, Read Many)、高傳輸效能、與水平擴充能力

56 HDFS Operations A client reading data from HDFS A client writing data to HDFS

57 HDFS Futures

58 HDFS Futures

59 MapReduce Developers implement two interfaces, Mapper & Reducer, while Hadoop takes care of all the distributed processing (automatic parallelization, job scheduling, job monitoring, and result aggregation)

60 Word Count Example

61 How Hadoop runs a MR job

62 Detailed Flows

63 Detailed Flows

64 Word Count Example: mapper

65 Word Count Example: reducer

66 Word Count Example: driver

67 Apache Hive: SQL Analytics for Any Data Size

68 High Level Architecture

69 Details Column Data Types Hive Query Language
primitive types: DOUBLE, FLOAT , INT, STRING, BOOLEAN complex types: STRUCT, ARRAY, MAP Hive Query Language DDL: CREATE / DROP / ALTER TABLE CREATE / DROP VIEW DML: LOAD DATA [OVERWRITE] INTO TABLE INSERT INTO [OVERWRITE] TABLE SELECT Query: SELECT a FROM b WHERE c GROUP BY d HAVING e LIMIT f FROM ta {LEFT / RIGHT / FULL} [OUTER] JOIN tb ON equal-expression SELECT a FROM subquery SELECT a, {COUNT/SUM/MIN/MAX/AVG} (b) OVER (PARTITION BY c) SELECT a, AVG(b) OVER (PARTITION BY c ORDER BY d ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)

70 Cloudera Impala

71 Cloudera Impala Details

72 Cloudera Impala Advantages
No high-latency MapReduce batch processing Local processing avoids network bottlenecks No costly data format conversion overhead All data immediately query-able Single machine pool to scale All machines available to both Impala and MapReduce Single, open, and unified metadata and scheduler

73 NoSQL Definition Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. Characteristics:schema-free, easy replication support, simple API, eventually consistent / BASE (not ACID), a huge amount of data 4項觀念 NoSQL是Not Only SQL 混用關聯式資料庫和NoSQL資料庫來達成最佳的儲存效果。 增加機器就能自動擴充資料庫容量 具有水平擴充能力,只要增加新的伺服器節點,就可以不斷擴充資料庫系統的容量。 打破Schema欄位架構的限制 NoSQL資料庫則是改用Key-Value資料模式來解決龐大資料的異動困難。 資料遲早會一致 為了保持分散式的擴充架構,只有保證最後資料會達到一致。

74 4類主流NoSQL資料庫 Key-Value

75 Apache HBase

76 Apache HBase System Model

77 HBase vs. HDFS vs. RDBMS

78 Hadoop training

79 Preparation 下載VMware Player 下載VM image 利用VMware Player開啟VM VM的基本設定
Hostname : TLTraining IP : Account : root Password : root1234

80 利用VMware Player開啟VM

81 利用VMware Player開啟VM

82 利用VMware Player開啟VM

83 利用VMware Player開啟VM

84 Hadoop Web Interface Web UI for MapReduce job tracker(s)
Web UI for MapReduce job tracker(s)

85 Hadoop Web Interface Web UI for task tracker(s)
Web UI for task tracker(s)

86 Hadoop Web Interface Web UI for HDFS name node(s)
Web UI for HDFS name node(s)

87 常用的Hadoop Commands hadoop fs -ls <args>
HDFS檔案與目錄的檢視 hadoop fs -mkdir <paths> 在HDFS中建立新目錄 hadoop fs -put <localsrc> ... <dst> 將資料放入HDFS中 hadoop fs -cat URI [URI …] 檢視HDFS的檔案內容 hadoop jar <jar> [mainClass] args... 執行MapReduce程式 Hadoop Commands Guide

88 A little Practice # hadoop fs –cat /output/practice1/part-r-00000
利用“/usr/lib/hadoop/hadoop example.jar”這個MapReduce範例程式執行job 建立Input目錄 # hadoop fs –mkdir /input 把Input資料放到Input目錄中 # hadoop fs –put /root/test_input.txt /input 執行WordCount job # hadoop jar /usr/lib/hadoop/hadoop examples.jar wordcount /input/ test_input.txt /output/practice1 查看job執行狀況 查看執行結果 # hadoop fs -ls /output/practice1 # hadoop fs –cat /output/practice1/part-r-00000

89 [root@TLTraining usr]# hadoop fs -touchz onedollar.txt
usr]# hadoop fs -ls /user/root usr]# cd /root ~]# ls ~]# touch onedollar.txt Vi test.txt ~]# ll -rw-r--r-- 1 root root Nov 7 16:15 onedollar.txt ~]# hadoop fs -put /root/onedollar.txt /input ~]# hadoop fs -ls /input Found 1 items -rw-r--r root supergroup :17 /input/onedollar.txt

90 A little Practice 建立Input目錄 把Input資料放到Input目錄中 執行WordCount job

91 A little Practice Output檔案 檢視Output檔案內容 hadoop]# hadoop fs -cat /output/practice3/part-r-00000 good 1 is onedollar hadoop]#


Download ppt "Hadoop/HDFS 實務應用 Onedollar."

Similar presentations


Ads by Google