Presentation is loading. Please wait.

Presentation is loading. Please wait.

常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.

Similar presentations


Presentation on theme: "常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017."— Presentation transcript:

1 常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017

2 楊立偉教授 專長領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~
台科大資管系兼任助理教授 2008~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台        龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年榮獲國家雲端創新獎、數位時代「創業之星」首獎

3 大數據及人工智慧時代的素養 (1) 全球近九成的資料是在過去2年產生,仍在加速當中;
巨大、多樣的數據源,將改變整個產業、社會、學界和政府,不會逆轉。 2005年 2017年 全球資料量(單位:EB) 企業營運 感應器 (物聯網) 社群網站 (影像、視訊與文字) 網路通訊 Source : IBM

4 大數據及人工智慧時代的素養 (2) 掌握工具技術,了解演算方法, 回到產業核心知識, 做出巨大的貢獻 連結、 邏輯、 程式化 敘述、 預測、
最佳化 環境、農業、交通、能源、 金融、製造、醫療、商業等

5 大數據及人工智慧時代的素養 (3) 由訓練到自動 「依樣畫葫蘆」、「目標最佳化」
"What Artificial Intelligence Can and Can't Do Right Now" by Andrew Ng, Harvard Business Review, 2016 Nov.

6 善用數據、人工智慧、以及群體智慧 data mining 根據過往紀錄,猜你喜歡 個人化、適性化、最佳化
collaborative filtering "看了這些的人通常也看了 這些…"

7

8 登革熱地圖 由網友製作,使用政府大數據,每日自動更新,呈現近兩週病人數達2例以上之地理分布,發布單位約450人之生活圈,相當精準。
Disease Control and Prevention - Dengue fever 由登革病毒所引起的急性傳染病,會經由蚊子傳播給人類。症狀輕微不明顯,到發燒、出疹,或出現嗜睡、躁動、肝臟腫大等警示,嚴重至出血或器官損傷的重症。 全球登革熱的好發地區,主要集中在熱帶、亞熱帶。自1980年代全球化發展後,各國交流往返趨於頻繁,登革熱也開始向各國蔓延,成為嚴重的公共衛生問題 2015年臺南市所爆發的登革熱疫情,最初出現在北區,而後擴散到全市,再蔓延至全島。確診病例超過4萬人,死亡病例218人。 來源: kiang.github.io

9 溫室氣體排放趨勢 由網友製作,使用政府大數據,依照排放氣體體種類 (二氧化碳 + 甲烷 + 二氧化氮) 或依排放來源切換,呈現長時間的趨勢。
排放氣體以 CO2 為主,排放量一直成長至 2007 後趨緩 甲烷排放量逐年減少,與垃圾掩埋場的處理程序改善有關 依排放來源,主要來自能源工業、製造工業與營建,以及運輸業 來源: muyueh.com

10 用數據看台灣 台灣水庫即時水情 台灣地狹山高,雨量雖多但流失也快,大量仰賴水庫蓄水供水。
運用儀器自動感測,結合大數據分析,了解全台灣各水庫蓄水量,並用預測公式算出剩餘供水天數,掌握缺水情況及停水資訊。 來源: 用數據看台灣

11 大數據及人工智慧的倫理及道德 資訊鴻溝、數據歧視、機器霸凌、以及更多的詐騙欺偽及濫權 從教育著手,用人類智慧避免歷史重演
"用數據模型替每個人打分數時,舉凡信用、教育、健康等方面,帶來了潛在的黑箱、歧視、道德危機。" 從教育著手,用人類智慧避免歷史重演

12 演算法導論

13 常見的 Data Mining 模組 關聯規則 Association rules 群集分析 Clustering
分類預測 Classification

14 基本原理:共現分析 產品組合 {2,5} 或 {2,3,5} 最常被一起購買

15 關聯規則 Association rules
尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 Nokia N95 → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性

16 常見有 : Apriori 演算法、 FP growth 演算法

17 關聯規則 Association rules (續)
檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數 信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Lift = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大

18 檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10% 代表重要 non-trivial
600筆 啤酒 500筆 檢驗方式 尿布→啤酒 支持度 Support = 100/( )=10% 代表重要 non-trivial 信心度 Confidence = 100/600=16.6% 代表準確 提升度 Lift = (100/600) / (500/1000) = 33.3% 代表特別 共同 購買 100筆

19 案例 (1) 台灣最大實體書店 台灣地區大型書籍零售賣場領導品牌,擁有數十萬會員資料,每年會員交易紀錄超過數百萬筆 分析目標 樣本資料
目標 1 : 尋找會員購買商品之間的關聯性 目標 2 : 尋找會員基本資料、與購買商品之間的關聯性 樣本資料 20萬筆會員資料 10萬筆行銷活動收集之名單 二年度的會員交易資料明細

20 台灣最大實體書店 (續) 針對目標 1,使用關聯分析 (Association) 模組,自動尋找出最具關聯性的購買商品 發現: 意義:
購買 休閒娛樂 類商品的會員, 同時會再購買 旅遊 類商品 購買 乾隆相關 書籍商品的會員, 同時會再購買 雍正王朝 DVD 意義: 可以針對上述具高度關聯性的商品進行搭售與聯合促銷 可以寄送另一商品之促銷訊息予只購買單一商品之會員 賣場動線設計 : 具高度相關之商品應陳列在同一鄰近區域

21 台灣最大實體書店 (續) 針對目標 2,使用主力客群 (Clustering) 模組,自動尋找出會員資料中與商品特性關聯性最高的欄位 發現:
旅遊 類商品與會員資料中的 性別 與 年齡 欄位有高關聯性 顯著區間:(Female, 30~40) 財經 類商品與會員資料中的 職業 與 收入水準 欄位有高關聯性 顯著區間:(Employee, 500K~800K yearly) 意義: Direct Marketing : 可以將促銷商品 DM 只寄給最具關聯性的潛在客戶。可大幅降低行銷成本,並提高回應率與成交率

22 台灣最大實體書店 (續) 專案導入: 效果: 該專案執行期間, 由總經理指派專案小組負責 部份商品為少量多樣,如建築類、藝術類、國外進口書等
原先每年寄送的會員 DM 約 100 萬封,每封 DM 成本約 元,但平均回應率低於2 % 效果: 經過資料分析後,了解客群分布,可進行精準的目標行銷 每年寄送的會員 DM 降為 20 萬封,回應率提高為 8-10 % 可以更準確地開發新客群,以及進行存書控制

23 群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布 常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔

24 分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity)
Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定

25 Why do we need clustering ?
For better data overview and summarization 可以概括地了解資料 For better data navigation 更好的資料導覽 For speeding up data processing 加速資料處理 For better user interface and data visualization 更好的使用者介面及資料視覺呈現 For better search results 更好的搜尋結果

26 Wise et al, “Visualizing the non-visual” PNNL ThemeScapes, Cartia
[Mountain height = cluster size]

27 分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據
可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷

28 分類預測 : 眼科診所病例

29 分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹

30 決策樹演算法 範例 Weather Data: Play tennis or not ?

31 Which attribute to choose ?

32 Which attribute to choose ?
choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64

33 第一層選擇outlook 重複產生分支, 直到結束或終止條件為止

34 練習 使用SQL group by協助,產生次數統計表 進行information gain計算 決定欄位,之後再重複上述動作

35

36 分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析技巧
進行次數統計、加權統計、檢定、多變量分析等 以ODBC或其它界面,接入到Excel、R、SAS、SPSS等工具

37 案例 (2) 亞洲最大線上紅利集點網站 亞洲區最大的線上紅利集點網站,在四個區域 (九個國家)中會員超過350萬人,專門經營線上紅利集點
分析目標 目標 1 : 找出具有高紅利點數的會員族群之特徵 目標 2 : 找出會員資料庫中的主要顯著客群 樣本資料 350萬筆大中國區會員資料庫 每位會員共有25個資料欄位,包括 ID, account, points, , sex, nickname, birthday, join_date, job 等

38 線上紅利集點網站 (續) 針對目標 1 ,使用關聯分析 (Association) ,自動尋找出與點數欄位最相關之欄位組合 發現 意義
紅利點數多的會員,與地址Address欄位高度相關 住在台北Taipei的人點數最多 (Confidence 63.5%) 意義 台北市的會員對於該線上紅利集點網站之大中國區 盈收貢獻度最高,最有價值 所有的會員經營與行銷預算,應集中火力於台北地區的會員

39 線上紅利集點網站 (續) 針對目標 2 ,使用群集分析 (Clustering),自動尋找出特徵最集中的主要會員群集
發現:該網站350萬會員中,有三個最顯著的主力客群 Group 1(55.78%): 年輕人、學生、男性 Group 2(19.53%): 科技業、技術人員、工程師、或經理、男性、半數住在台北 Group 3(7.05%): 科技及服務業、行政助理、秘書、服務人員、女性、半數住在台北 意義 上述族群已超過 80%。可對這三個市場區隔,做行銷預算分配,進行更精準的直效行銷,將可大幅節省行銷成本,並提高效果。

40 案例 (3) 其它 某大電信業者 : 電信預警系統 依 Peak alarm (突來的不正常之尖峰用量) 與 Region alarm (連續罕用受話號碼或付費號碼) 判斷盜打行為 依系統警示信號預測系統雍塞機率,以預先調配郊區之基地台來支援,達成整體系統使用率之最佳化

41 在各產業的應用 – 以零售通路為例

42 目標 1 聯合促銷 STEP 1 : 目標 STEP 2 : 分析 收集購買紀錄中,分析商品之間的的關聯性 可依不同的資料尺度進行分析
  部門 - 生鮮食品, 摩登服飾, 3C家電等 專櫃 - 佳麗寶, 資生堂, 美爽爽等   品群 - 化妝品, 皮件, 女鞋等 商品 - 水亮唇膏 分析結果 中型免洗盤 → 竹籤 and 竹筷 信心指數 74.3 % 車用吸塵器 → 車用垃圾筒 信心指數 42.8 % 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 信心指數 65.2 %

43 目標 1 聯合促銷 (續) STEP 3 : 執行 所代表的意義 商品特性關聯 : 車用吸塵器 → 車用垃圾筒 (清潔車內)
消費目的關聯 : 中型免洗盤 → 竹籤 and 竹筷 (郊遊烤肉) 消費族群關聯 : 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 (年輕流行) 擬定促銷策略 搭售 聯合促銷:主題特賣會、折價券 亦可做為商場動線設計,以及進補貨之參考

44 目標 2 直效行銷 STEP 1 : 目標 STEP 2 : 分析 分析結果 從會員資料與購買紀錄中,找出會員與商品之間的的關聯性
從會員資料與購買紀錄中,尋找會員的連續購買行為 STEP 2 : 分析 分析結果 果汁飲料類 → 女性, 25-35歲, 台北縣市 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲 信心指數 74.1 % 愛狗座墊 → 項圈 →狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 %

45 目標 2 直效行銷 (續) STEP 3 : 執行 擬定直效行銷策略 針對目標族群寄送行銷訊息 → 成本更低,回應率更高
果汁飲料類 → 女性, 25-35歲 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲, 台北縣市 信心指數 74.1 % 預測消費者購買行為,刺激消費 → 增加營收 愛狗座墊 → 項圈 → 狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 % 辨識目標族群,加以行銷擴散 建立「愛狗族群張貼可愛照片」,或「DIY家居族群分享經驗」

46 問題討論


Download ppt "常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017."

Similar presentations


Ads by Google