Hadoop/HDFS 實務應用 Onedollar.

Hadoop/HDFS 實務應用 Onedollar

對不起，您今天提領的現金已經超過提款機的每日提款限額囉
喔！我想要訂購一台室內跑步機送給我老婆當生日禮物王先生您好，先跟您核對一下個人資料：您住在民生路二段34號5樓，您家電話是，您的公司電話是，您的行動電話是。是嗎？根據您太太的醫療紀錄，她有膝關節疼痛的毛病，不適合做跑步運動陳小姐妳好，我想要……… 您可以試試看我們新推出的全方位按摩椅，不必做激烈運動也能達到全身運動的效果，而且您自己也可以使用喔！為什麼？王先生，室內跑步機不適合您太太喔。我們要先安排司機送貨路線，最快大約要三小時才能送到，如果您等不及，可以自己開車過來載王先生，因為我們已經連線到『神機妙算客服系統』對不起，您今天提領的現金已經超過提款機的每日提款限額囉沒錯！你怎麼知道得這麼詳細？喔？我手邊的現金應該還夠，妳們快把按摩椅送過來吧好的！我立刻請庫房幫您備貨。不過，王先生，要請您開慢一點，因為您今年總共已經被開了13張超速罰單了！您所住的房子臥室有五坪大，而您只購買過一張雙人床和一座四尺寬的衣櫃，剩下來的空間放這台按摩椅應該沒問題喔！您不是剛買了一輛Discovery休旅車，車號是KG-3838，用這台車載按摩椅剛剛好喔！我的身分證號碼是A 那……妳能不能推薦其他的禮物？喔….. 妳怎麼知道我剛好想買按摩椅呢？喔！那我先去領錢，妳們趕快把按摩椅送過來吧！對不起，要請您用現金付款，因為您的兩張信用卡都已經刷爆了，現在還欠銀行六萬七千八百三十五元因為根據google的使用紀錄，您上星期用『按摩椅』這個關鍵字搜尋了24次奇奇電視購物您好，敝姓陳，很高興為您服務。喔！可是我怕按摩椅太大，我的臥室會放不下喔！那這台按摩椅要賣多少錢呢？什麼？！先生，請先告訴我您的身分證號碼啊？好吧！那我自己過去載好了 ……………… 請問妳們有收信用卡嗎？今天我們剛好有做特惠，原價一萬元，現在只賣五千元

資料探勘Data Mining 運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識，要實現『神機妙算客服系統』所提供的個人化服務，並非遙不可及! 企業現階段急需運用資料探勘技術，輔助決策者在對的時刻做對的決策！學術界積極培養資料探勘技術應用人才為當務之急！

資料探勘的定義和範圍資料探勘(data mining)的定義資料探勘的整體架構使用者溝通介面資料庫應用領域知識探勘知識探勘方式
圖1 資料探勘的整體架構

資料探勘的目的「從大量資料中挖掘有價值的資訊，供管理人員做為決策參考，開創新商業契機」成功經驗美國超級市場(Wal-Mart)
銷售資料分析發現，尿布和啤酒常會一起購買，於是將商品放在一起促銷，得到意想不到的業績成長美國銀行 (Bank of America) 從客戶資料中，找出既有客戶申請貸款的時機，規劃全新行銷方案；該方案推出後，接受率立即成長兩倍以上資料探勘(data mining)的定義資料探勘的特性資訊系統大量累積資料在大量累積的資料中萃取；利用80/20%理論來產生目標資料集資料探勘是利用演算法，例如：機器學習的演算法資料探勘的分析是用啟發性商業價值從大量資料中找尋隱藏性的知識與規則具有商業價值

資料探勘的應用以類似PC-Home之線上購物商店為例可獲取之資料可進行之資料探勘應用：顧客居住地區、年齡、性別、個人資料、交易紀錄
建立個人化行銷模式找出潛在的客戶名單了解顧客族群的屬性預測目前哪些顧客可能流失

資料探勘的興起歸功三項技術的成熟大量資料的收集技術：高效能的多處理器電腦架構資料探勘演算法的成熟
網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟高效能的多處理器電腦架構平行處理架構，使大量資料處理能在可容忍的時間內完成資料探勘演算法的成熟包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、基因演算法( genetic algorithms ) …等等

資料探勘的功能預測未來的趨勢找出未知的樣式股市行情預測天氣預測地震預測消費行為預測商品出貨量預測…等等
找出會購買筆記型電腦的顧客特徵依消費習性相近的顧客進行群組推薦鑑別消費者可能會同時購買的商品組合…等等

何謂資料探勘(1) 學者曾對資料探勘做過的定義 Frawley Grupe & Owrang Fayyad Berry & Linoff
資料庫中挖掘潛在、明確、而且非常有用資訊的過程 Grupe & Owrang 從已存在的資料庫當中挖掘出專家仍未知的新事實 Fayyad 定義知識發掘 (Knowledge Discovery) 為從大量資料中選取合適的資料，進行資料處理、轉換等工作，再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法，對大量資料分析，找出有意義的關係或法則。

何謂資料探勘(2) 資料探勘=資料庫之知識發掘（Knowledge Discovery in Databases，簡稱KDD）
從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識「知識」指的就是一些規則大型資料庫包括線上作業的資料庫 (On-line Database) 及資料倉儲 (Data Warehouse)…等等知識範例「如果顧客的年齡是在三十歲到四十歲之間，而且年收入是在四十萬到六十萬之間，那麼此顧客很有可能會購買筆記型電腦。」

資料探勘歷史演進步驟目標企業問題應用技術系統供應商系統特性檔案系統 (1960年代) 資料庫系統 (1970年代) 資料倉儲系統
“2002年12月筆記型電腦的銷售明細為何？” 電腦、磁帶、磁碟 IBM, CDC 傳遞歷史性的靜態資料資料庫系統 (1970年代) “IBM X31筆記型電腦目前的售價是多少?” 階層式資料庫(hierarchical ] database)、網路式資料庫 (network database)、關聯式資料庫(relational database)、結構化查詢語言(SQL) 、開放性資料庫連結協定(ODBC) Oracle, Sybase, Informix, IBM, Microsoft 傳遞即時性的單層次動態資料資料倉儲系統（1990年代） “去年北部地區筆記型電腦的總銷售量是多少?其中台北市的銷售量是多少?” 線上分析處理 (OLAP)、多維度資料模 (multidimensional data model)、資料倉儲 (data warehouse) Pilot, Comshare, Arbor, Cognos, Microstrategy, 的多層次動資料探勘系統（現代） “明年筆記型電腦的預估銷售量為何? 為什麼?” 進階演算法、多處理器電腦系統、大量資料儲存技術、人工智慧 Pilot, Lockheed, IBM, SGI 傳遞預知的、鑑往知來的資訊

資料探勘的演進資料庫資料倉儲資料探勘資料資訊知識資料操作員資料分析師管理決策者專家系統知識庫系統決策支援系統

資料探勘的模型主要有以下四種資料分類 (data classification) 資料關連 (data association)
資料分群 (data clustering) 循序樣式探勘 (sequential pattern mining)

找出群組與組群之間的差異點，以及同一組群內各個變數的相似點
資料探勘的分類技術資料探勘的分類種類表1 資料探勘的分類技術重點表 (接下頁) 技術行為方式目的方法資料應用公式量值例子預測預測行為推估未來的數值以及趨勢趨勢多種獨立自變數來分析出某個因變數新的觀察值預測其未來之刷卡消費量分類其屬性變數指派至所屬的群集屬性分門別類不同屬性變數規則訂定策略與保費群聚預測和描述行為找出群組與組群之間的差異點，以及同一組群內各個變數的相似點相似特性特定變數差異點量值客戶消費集群

支持度(Support)以及可靠度(Confidence)
資料探勘的分類技術資料探勘的分類種類表1 資料探勘的分類技術重點表技術行為方式目的方法資料應用公式量值例子關聯性分析描述行為項目或屬性彼此之間的關聯性關聯性兩種資料一起被應用支持度(Support)以及可靠度(Confidence) 一起銷售的擺置方式順序發生的先後順序關係重新組合環境資料順序關係發生客戶失竊的先後順序推估預測行為獲致某一屬性未知之值推論連續性數值推估值推估其信用卡消費量

資料探勘的分類技術資料探勘的分類種類表2 分類技術和演算法關聯表演算法預測分類群聚順序推估關聯性分析一般統計 *
聯結分析案例式推理購物籃分析基因演算法記憶基礎理解群集偵測決策樹類神經網路

資料探勘的應用實例 (1) 成功案例 LTV鋼鐵公司(全美第三大) 美國匯豐銀行(HSBC-Bank-USA)
偵測品質問題，使不良品減少99% 美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘，用「生活方式」區隔進行行銷，對行銷資源做「最佳化規劃」，銷售量提高了50% Jubii（丹麥最受歡迎的入口網站）運用資料探勘探索「哪一種瀏覽路徑最有可能促成交易?」，改善網站設計，使得瀏覽率提升30%~50%，媒體銷售業績成長10%~15%

資料探勘的應用實例(2) 金融保險業零售製造業醫療生技業教育業
信用評等、客製化金融服務、客戶資產管理、呆帳分析、保險潛在客戶名單分析、直效行銷、分析購買行為、偵測信用卡詐騙行為、股匯市行情預測零售製造業分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策、連續銷售、促銷商品組合、DM名單、庫存分析醫療生技業預防醫學分析、院內感染分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析教育業學生來源分析、課程規劃、學習評量、適性化教學

資料探勘在顧客關係管理之應用零售業者而言銀行業者而言保險業者而言優點
瞭解顧客消費特性，發掘顧客採購模式，強化客戶關係，達到留住顧客目的銀行業者而言瞭解信用卡發放可能產生之弊端，找出最有利潤、忠誠度佳的顧客保險業者而言分析保戶要求理賠之模式，並可加強稽核，以防止詐財之發生優點有效地在不同層面增加公司收益，達成營運目標

資料探勘在網路行銷之應用分析顧客於網站上之行為模式應用範例可用以下特性區分訪客的特質
當顧客拜訪網站時，往往提供許多寶貴的資料，如個人資料、點選的網頁內容、在網頁所停留的時間、利用搜尋引擎時所使用的關鍵字、以及顧客到訪網站的時間點等，企業可藉由分析這些資訊來瞭解顧客的行為模式，藉以提高顧客對公司所提供之產品與服務的滿意度。應用範例可用以下特性區分訪客的特質地理區隔包括訪客地址、收入、購買能力人格特質訪客之購買特性，是否為衝動性或精打細算型訪客使用之資訊設備網路頻寬、操作系統、瀏覽器或伺服器

資料探勘在網路入侵行為分析之應用發掘異常網路行為應用範例傳統分析突發網路狀況，需很長時間
利用高速運算，分析異常網路行為、動態調整與更新防禦機制應用範例協助網管執行進階的網路控管，並動態調整與更新防禦機制，進而遏阻網路入侵攻擊的潛在威脅協助網管建立正常網路行為模型、異常的行為模型

資料探勘在網路學習之應用適性化網路學習(Adaptive E-learning) 應用範例提供適合學習路徑給不同背景學習者
建構「學習概念圖(concept map)」規劃學生學習路徑分析成績了解試題關連性，推導對應之概念應用範例利用關連法則探勘技術分析學習者的學習成績並了解試題間的關連性推導出相對應於試題之概念間的關連找出可以幫助領域專家建構學習概念圖的法則構建適切的課程概念圖。

資料探勘的工具一般性套裝軟體整合型系統客製化軟體將資料倉儲、資料探勘、及專家系統/決策支援系統整合單純只做資料探勘工作
Cognos出品的SCENARIO ( Business Objects出品的BusinessMiner ( 一般性套裝軟體單純只做資料探勘工作 IBM的Intelligent Miner SPSS的Clementine 客製化軟體依照某企業體或是某行業的需要所量身訂做的軟體針對零售業開發的KD1 針對信用卡詐欺或呆帳偵測所開發的HNC

Microsoft SQL Server SQL 7.0 SQL Server 2005（代號Yukon） SQL Server 2000
微軟率先推出綜合兩種特色的HOLAP（混雜式OLAP）將資料存放在關聯式資料表處理效率大幅增進同時在最少的額外儲存空間下，能夠有不錯的查詢速度 SQL Server 2000 只有決策樹和群集分析兩種演算法僅能進行部分的分類、分群和預測的功能 SQL Server 2005（代號Yukon）包含了七種演算法包括決策樹、類神經網路、貝氏演算法、序列群集分析、關連法則分析、迴歸樹(regression trees)、以及時間序列分析，增加許多大廠嚴重的競爭壓力最新的版本是SQL Server 2014

ＤＭＡＳ運作方式運作方式利用簡單的視窗操作介面呼叫資料探勘引擎直接撰寫JAVA 程式呼叫相關的應用程式介面來完成探勘的工作

未來的發展與挑戰不同型態的資料處理資料探勘演算法的效能資料探勘結果的可用性及正確性資料探勘結果的呈現方式
多重抽象層次中的互動式知識發掘不同來源資料的整合隱私保護與資料安全議題更具預測能力的模型更具延展性的模型更具成本效益的模型不斷進化成長的資料探勘標準與關聯式資料庫的整合

Enterprise Data Architecture

Big Data 簡介故事就從那一年開始

真實世界的故事 "大數據技術在電信行業中的應用", 中國聯通研究院王志軍, 2013

Big Data 定義 In information technology, big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications [Wikipedia] Top Ten Technology Trends for 2014

帶來Big Data 4’V 特性 IBM, 2012

改變中的世界感知化(Instrumented) Smart Handset Security Surveillance
Smart Meter Car Navigation Sensors RFID

改變中的世界聯網化 (Interconnected) Internet Internet of Things
Social Network

改變中的世界智能化 (Intelligent) Smart Building Smart City Smart Traffic
Smart Government Smart Health Care

巨量與即時特性根據IDC研究報告中指出，未來資料量的成長速度將超越摩爾定律。這些資料將從過去結構性資料，擴大到非結構綜合性資料，計算單位將是ZB（1兆GB）

巨量資料的多元性與不確定性預估至2018年，80%的資料具不確定性!

巨量資料與商業智慧的差異 “Introduction to Analytics and Big Data - Hadoop”, SNIA

企業面臨各種層級的問題

巨量趨勢機會：充分利用所有資料來源和內容以建構洞察見解
企業營運仰賴的資訊已超越傳統內部資料，並朝向感應器、測量器、追蹤、social media 等外部多元異質資訊來源發展 隨著各種感應器(sensor)、社交網路、影音檔案等資料來源增加，企業從巨量資料中蒐集、萃取並分析出有商業價值的資源，以應對日益變化業務挑戰，也突顯網路通訊在巨量資料交互運作下，即時互動與反應上的必要性

巨量趨勢機會：分析過去，預測展望，到即時優化!

巨量資料帶來的變革資料在以前被視為垃圾，現在卻被視為資產
網際網路的崛起已打破這項鐵律，99% 的產品都有機會銷售，「長尾」商品將鹹魚翻身。

巨量資料帶來的變革

技術切入點選擇

如何從巨量資料獲益

Big Data Professionals
平台管理師(Platform Specialist) 規劃、設計、建置、與管理Big Data平台熟悉硬體規格、各廠商軟體版本與功能、參數優化、效能監控、異常處理等資料工程師(Data Engineer) 管理資料生命週期與建立資料處理流程熟悉資料整合(Data Integration)、資料品質(Data Quality)、與資料治理(Data Governance)相關技術資料科學家(Data Scientist) 定義問題、選擇技術、進行實驗、與提供最佳實踐熟悉各式分析技術，包含統計分析、資料採礦、預測模型、自然語言處理，內容分析，與社交網路分析

巨量資料趨勢 1.大數據將從概念走向實用，並與雲計算服務整合 2.Hadoop將擺脫廉價數據倉庫的形象，成為企業數據處理的通用計算架構 3.越來越多的企業意識到消費者數據分析的重要性 4.營銷大數據將迎來大發展，重點領域包括廣告、促銷和用戶行為分析 5.掌握大數據分析技術的業務部門分析人員將比大數據科學家對企業更加重要 6.Web of Things，將利用移動設備和傳感器來觀察並監控環境，並加強現實世界物體之間的協同 7.R將取代傳統SAS方案成為主流分析技術 8.大量即時互動應用，包括web應用、移動應用、社交應用將建築在Hadoop平臺之上 9.Hadoop將進化得更安全、更多的運營管理和資源管理等企業需要的功能 10.至少會有一家Hadoop或NoSQL提供商上市

RDBMS遭遇的瓶頸 Don’t handle mixed unstructured data Don’t parallelize well
Difficult to scale-out Can’t handle huge data volume

Big Data 系統架構設計目標

Reference Architecture

What’s Apache Hadoop

Apache Hadoop 生態圈

Modern Data Architecture

Apache YARN

YARN Architecture

Hadoop Distributed File System
Design Principles 分散式檔案儲存技術，用來儲存數百TB的檔案，其特性為：WORM(Write Once, Read Many)、高傳輸效能、與水平擴充能力

HDFS Operations A client reading data from HDFS A client writing data to HDFS

HDFS Futures

MapReduce Developers implement two interfaces, Mapper & Reducer, while Hadoop takes care of all the distributed processing (automatic parallelization, job scheduling, job monitoring, and result aggregation)

Word Count Example

How Hadoop runs a MR job

Detailed Flows

Word Count Example: mapper

Word Count Example: reducer

Word Count Example: driver

Apache Hive: SQL Analytics for Any Data Size

High Level Architecture

Details Column Data Types Hive Query Language
primitive types: DOUBLE, FLOAT , INT, STRING, BOOLEAN complex types: STRUCT, ARRAY, MAP Hive Query Language DDL: CREATE / DROP / ALTER TABLE CREATE / DROP VIEW DML: LOAD DATA [OVERWRITE] INTO TABLE INSERT INTO [OVERWRITE] TABLE SELECT Query: SELECT a FROM b WHERE c GROUP BY d HAVING e LIMIT f FROM ta {LEFT / RIGHT / FULL} [OUTER] JOIN tb ON equal-expression SELECT a FROM subquery SELECT a, {COUNT/SUM/MIN/MAX/AVG} (b) OVER (PARTITION BY c) SELECT a, AVG(b) OVER (PARTITION BY c ORDER BY d ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)

Cloudera Impala

Cloudera Impala Details

Cloudera Impala Advantages
No high-latency MapReduce batch processing Local processing avoids network bottlenecks No costly data format conversion overhead All data immediately query-able Single machine pool to scale All machines available to both Impala and MapReduce Single, open, and unified metadata and scheduler

NoSQL Definition Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. Characteristics:schema-free, easy replication support, simple API, eventually consistent / BASE (not ACID), a huge amount of data 4項觀念 NoSQL是Not Only SQL 混用關聯式資料庫和NoSQL資料庫來達成最佳的儲存效果。增加機器就能自動擴充資料庫容量具有水平擴充能力，只要增加新的伺服器節點，就可以不斷擴充資料庫系統的容量。打破Schema欄位架構的限制 NoSQL資料庫則是改用Key-Value資料模式來解決龐大資料的異動困難。資料遲早會一致為了保持分散式的擴充架構，只有保證最後資料會達到一致。

4類主流NoSQL資料庫 Key-Value

Apache HBase

Apache HBase System Model

HBase vs. HDFS vs. RDBMS

Hadoop training

Preparation 下載VMware Player 下載VM image 利用VMware Player開啟VM VM的基本設定
Hostname : TLTraining IP : Account : root Password : root1234

利用VMware Player開啟VM

Hadoop Web Interface Web UI for MapReduce job tracker(s)
Web UI for MapReduce job tracker(s)

Hadoop Web Interface Web UI for task tracker(s)
Web UI for task tracker(s)

Hadoop Web Interface Web UI for HDFS name node(s)
Web UI for HDFS name node(s)

常用的Hadoop Commands hadoop fs -ls <args>
HDFS檔案與目錄的檢視 hadoop fs -mkdir <paths> 在HDFS中建立新目錄 hadoop fs -put <localsrc> ... <dst> 將資料放入HDFS中 hadoop fs -cat URI [URI …] 檢視HDFS的檔案內容 hadoop jar <jar> [mainClass] args... 執行MapReduce程式 Hadoop Commands Guide

A little Practice # hadoop fs –cat /output/practice1/part-r-00000
利用“/usr/lib/hadoop/hadoop example.jar”這個MapReduce範例程式執行job 建立Input目錄 # hadoop fs –mkdir /input 把Input資料放到Input目錄中 # hadoop fs –put /root/test_input.txt /input 執行WordCount job # hadoop jar /usr/lib/hadoop/hadoop examples.jar wordcount /input/ test_input.txt /output/practice1 查看job執行狀況查看執行結果 # hadoop fs -ls /output/practice1 # hadoop fs –cat /output/practice1/part-r-00000

[root@TLTraining usr]# hadoop fs -touchz onedollar.txt
usr]# hadoop fs -ls /user/root usr]# cd /root ~]# ls ~]# touch onedollar.txt Vi test.txt ~]# ll -rw-r--r-- 1 root root Nov 7 16:15 onedollar.txt ~]# hadoop fs -put /root/onedollar.txt /input ~]# hadoop fs -ls /input Found 1 items -rw-r--r root supergroup :17 /input/onedollar.txt

A little Practice 建立Input目錄把Input資料放到Input目錄中執行WordCount job

A little Practice Output檔案檢視Output檔案內容 hadoop]# hadoop fs -cat /output/practice3/part-r-00000 good 1 is onedollar hadoop]#

Hadoop/HDFS 實務應用 Onedollar.

Similar presentations

Presentation on theme: "Hadoop/HDFS 實務應用 Onedollar."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Hadoop/HDFS 實務應用 Onedollar.

Similar presentations

Presentation on theme: "Hadoop/HDFS 實務應用 Onedollar."— Presentation transcript:

Similar presentations

About project

反馈