Presentation is loading. Please wait.

Presentation is loading. Please wait.

常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.

Similar presentations


Presentation on theme: "常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018."— Presentation transcript:

1 常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018

2 講者介紹 楊立偉教授 研究領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~
台大資管系兼任助理教授 2017~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台 龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名        經歷 獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 榮獲國家雲端創新獎、數位時代「創業之星」首獎 獲數位時代雜誌選為代表台灣軟體的封面人物之一

3 大數據及人工智慧時代的素養 (1) 全球近九成的資料是在過去2年產生,仍在加速當中;
巨大、多樣的數據源,將改變整個產業、社會、學界和政府,不會逆轉。 2005年 2017年 全球資料量(單位:EB) 企業營運 感應器 (物聯網) 社群網站 (影像、視訊與文字) 網路通訊 Source : IBM

4 大數據及人工智慧時代的素養 (2) 掌握工具技術,了解演算方法, 回到產業核心知識, 做出巨大的貢獻 連結、 邏輯、 程式化 敘述、 預測、
最佳化 環境、農業、交通、能源、 金融、製造、醫療、商業等

5 大數據及人工智慧時代的素養 (3) 由訓練到自動,「依樣畫葫蘆」 目標-嘗試-獎勵,相互對抗 臉部辨識 貸款核准 精準廣告 語音辨識
機器翻譯 自動駕駛 "What Artificial Intelligence Can and Can't Do Right Now" by Andrew Ng, Harvard Business Review, 2016 Nov.

6 + 大數據是油田 人工智慧是煉油廠 ?

7 大數據加上 AI 煉油廠能做些什麼? 陳昇瑋, 讓資料為你產生價值, 2017

8 善用數據、人工智慧、以及群體智慧 data mining 根據過往紀錄,猜你喜歡 個人化、適性化、最佳化
collaborative filtering "看了這些的人通常也看了 這些…"

9

10 登革熱地圖 由網友製作,使用政府大數據,每日自動更新,呈現近兩週病人數達2例以上之地理分布,發布單位約450人之生活圈,相當精準。
Disease Control and Prevention - Dengue fever 由登革病毒所引起的急性傳染病,會經由蚊子傳播給人類。症狀輕微不明顯,到發燒、出疹,或出現嗜睡、躁動、肝臟腫大等警示,嚴重至出血或器官損傷的重症。 全球登革熱的好發地區,主要集中在熱帶、亞熱帶。自1980年代全球化發展後,各國交流往返趨於頻繁,登革熱也開始向各國蔓延,成為嚴重的公共衛生問題 2015年臺南市所爆發的登革熱疫情,最初出現在北區,而後擴散到全市,再蔓延至全島。確診病例超過4萬人,死亡病例218人。 來源: kiang.github.io

11 溫室氣體排放趨勢 由網友製作,使用政府大數據,依照排放氣體體種類 (二氧化碳 + 甲烷 + 二氧化氮) 或依排放來源切換,呈現長時間的趨勢。
排放氣體以 CO2 為主,排放量一直成長至 2007 後趨緩 甲烷排放量逐年減少,與垃圾掩埋場的處理程序改善有關 依排放來源,主要來自能源工業、製造工業與營建,以及運輸業 來源: muyueh.com

12 用數據看台灣 台灣水庫即時水情 台灣地狹山高,雨量雖多但流失也快,大量仰賴水庫蓄水供水。
運用儀器自動感測,結合大數據分析,了解全台灣各水庫蓄水量,並用預測公式算出剩餘供水天數,掌握缺水情況及停水資訊。 來源: 用數據看台灣

13 大數據及人工智慧的倫理及道德 資訊鴻溝、數據歧視、機器霸凌、以及更多的詐騙欺偽及濫權 從教育著手,用人類智慧避免歷史重演
"用數據模型替每個人打分數時,舉凡信用、教育、健康等方面,帶來了潛在的黑箱、歧視、道德危機。" 從教育著手,用人類智慧避免歷史重演

14 演算法導論

15 常見的 Data Mining 模組 關聯規則 Association rules 群集分析 Clustering
分類預測 Classification

16 基本原理:共現分析 Support ≧ 2 最常被一起購買的產品組合 組合數為2時 : {2,5} 組合數為3時 : {2,3,5}

17 1. 關聯規則 Association rules
尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 iPhone7 Plus → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性

18 檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數
信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Lift = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大

19 Association 檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10%
600筆 啤酒 500筆 Association 檢驗方式 尿布→啤酒 支持度 Support = 100/( )=10% 代表重要 non-trivial 信心度 Confidence = 100/600=16.6% 代表準確 提升度 Lift = (100/600) / (500/1000) = 33.3% 代表特別 共同 購買 100筆 Lift的說明: 假設1000筆資料中有500筆有買啤酒(兩個中就有一個),今600筆買尿布中只有100筆有買啤酒,顯低於原本之機率(密度),故稱找到的是common sense。「報告,我發現有鼻子的人都有眼睛」「孩子,這是廢話,每個人本來就都有眼睛」

20 案例 : 尋找金融業保戶/保單間的關聯性 分析目標 分析結果 目標 1 : 保戶基本資料、和購買保單間的熱門關聯性
目標 2 : 購買保單之間的關聯性 分析結果 (新鴻運終身壽險, 萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) (新鴻運終身壽險) → (防癌保本終身健康保險)

21 如何應用熱門關聯性? (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F )
(萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) 直效行銷 : 可以將商品資訊只推銷給最具關聯性的潛在客戶。可 大幅降低行銷成本,並提高回應率與成交率 (新鴻運終身壽險) → (防癌保本終身健康保險) 搭售、聯合促銷、交叉行銷:可以寄送另一商品之促銷訊息予只 購買單一商品之會員,創造新的營收

22 2. 群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布
常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔

23 分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity)
Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定

24 案例 : 金融業高貢獻度保戶之客群分析

25 如何應用主力客群特徵分析? 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群
52% : 要保人 : 男, 30-40歲, 年收 萬 28% : 要保人 : 已婚, 子女數 > 2 13% : 女性, 台北市, 研究所以上 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 符合  (要保人 : 男, 30-40歲, 年收 萬) 但目前 (購買三張保單或累計投保1000萬以下) 之族群

26 3. 分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據
可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷

27 分類預測 : 眼科診所病例

28 分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹

29 決策樹演算法 範例 Weather Data: Play tennis or not ?

30 Which attribute to choose ?

31 Which attribute to choose ?
choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64

32 第一層選擇outlook,往下重複產生分支,直到結束或終止條件為止
這5筆資料,用剩下的humidity, windy, temperature再去計算 (最後選humidity) 不用再算 這5筆資料,同樣也用剩下的humidity, windy, temperature去算 (圖略)

33 最後的結果

34 案例 : 金融業保戶的購買決策模型 1. 自動嘗試所有欄位排列組合 2. 找出關鍵決策因素之優先順序 3. 自動切割適當值 4. 自動排除無關因素

35 應用方式 依客戶狀況提出適當建議 (透過Web或Mobile推播) 準確地大量開發新客戶 精準目標與擴散 降低行銷成本,提高成交率和營收

36 練習 – 以決策樹為例 使用SQL group by協助,產生次數統計表 進行information gain計算
決定欄位,之後再重複上述動作

37

38 練習 – 其他分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析方法
進行次數統計、加權統計、檢定、多變量分析等 以ODBC/JDBC或其它界面,接到Excel、R、SAS、SPSS等工具

39 問題討論


Download ppt "常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018."

Similar presentations


Ads by Google