巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall
楊立偉教授 專長領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~ 台科大資管系兼任助理教授 2008~ 資訊及通信國家標準技術委員 意藍資訊 董事總經理(創辦人) 1999~ 國內規模最大的網路情報與社群口碑自動分析平台 龍捲風科技 董事總經理 國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年榮獲國家雲端創新獎、數位時代「創業之星」首獎
巨量資料 – 導論
Trend of Big Data Big Data 係指資料大量成長 根據IBM的研究,全世界90%的資料是在過去2年產生 Google、Facebook 等,就是站在Big Data上的範例 巨大的數據源,將改變整個學術界,商界和政府 依賴新的資訊科技來處理 包括 capture, storage, search, analytics 等
"Data Scientist : The sexist job of the 21st century", Harvard Business Review, Oct 2012 巨量資料人才 需求大幅增加
Obama Administration : Big Data is a Big Deal 白宮在2012年3月宣布,將投資2億美元啟動「海量資料研究 和發展計畫」,包括Big Data分析及Big Data在醫療、天氣和國防等領域的運用;白宮甚至將數據資料定義為「未來的新石油」。顯然,一個國家擁有數據資料的規模和解釋運用的能力,已成為一國核心資產和國力指標。(中國時報 2013/5/12)
Big Data 的主要來源 Enterprise data, Social data, Machine data User data, transaction data, social data, machine data Enterprise data, Social data, Machine data Source : IBM 2012全球CEO調查報告
Big Data 的特性 數量大、產生速度快、多樣性、可能存有誤差資料 Source : IBM Big Data Hub
Big Data 的應用方式 運用資料與演算,達成智慧決策 Source : IBM 2012全球CEO調查報告
Business Intelligence 企業商業智慧 顯性知識 資料庫 企業文件、報告 會議紀錄、電子郵件等 企業商業智慧 Business Intelligence 企業決策的基礎 隱性知識 人類難以用肉眼觀察者 大量交易資料、客戶資料等 難以用人工分析者
企業商業智慧的用途 運用資料探勘技術,所發掘出的隱性知識,可以協助企業: 了解舊客戶行為,做好客戶關係管理 開發新客戶 決策支援,選定目標市場與行銷策略 降低行銷成本,提高回應率與成交率 銷貨預測,創造營收、降低庫存,提高營運效率
Marketing and CRM Cycle Data Warehousing Data Mining E-Marketing
巨量資料 – 分析技術
Big data 的資料種類 企業的結構性資料 與 非結構性資料
Twitter Zynga 200 million tweets per day Peak 10,000 per second How to analyze the data ? Zynga "Analytics company, not a gaming company“ 230 million players per month Harvest 15TB data per day test new features target advertising 4U box = 40 TB 1PB = 25 boxes
Facebook 6 billion messages per day 2 PB (compressed) online 6 PB replication 250 TB growth per month Cassandra / HBase architecture
eBay Analyze & Report Discover & Explore
Big data 的分析方式 結構性資料分析 非結構性資料分析 Data Mining 資料探勘 Text Mining 文字探勘 轉結構性資料
(1) 結構性資料分析 資料探勘 Data Mining 從大量資料或歷史資料中,透過人工智慧、類神經網路等技術,找出人類難以觀察出、或傳統之統計所無法發現之隱性知識。 這些隱性知識包括分布趨勢、決策樹、關聯性、連續性等,對行銷與客戶關係經營有重大價值。
常見的 Data Mining 模組 群集分析 Clustering 分類預測 Classification 關聯規則 Association rules 連續行為 Sequential pattern analysis
基本原理:以相關性分析為例 產品組合 {2,5} 或 {2,3,5} 最常被一起購買
1. 群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布 常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔
分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity) Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定
2. 分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據 可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷
分類預測 : 眼科診所病例
分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹
決策樹演算法 範例 Weather Data: Play tennis or not ?
Which attribute to choose ?
Which attribute to choose ? choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64
第一層選擇outlook 重複產生分支, 直到結束或終止條件為止
練習 使用SQL group by協助,產生次數統計表 進行information gain計算 決定欄位,之後再重複上述動作
非結構資料的處理 – 欄位化
a
利用標記 – 方式(1) 新增標記欄位 tag1, tag2,… ALTER TABLE content ADD tag1 int, tag2 int; 使用條件做標記 UPDATE content SET tag1 = 1 WHERE content LIKE '*柯文哲*'; UPDATE content SET tag2 = 1 WHERE content LIKE '*連勝文*'; 進行統計 SELECT sum(tag1) as '柯文哲篇數', sum(tag2) as '連勝文篇數' FROM content;
利用標記 – 方式(2) 新增一張表 CREATE TABLE tag (id int, tag char(20), primary key (id, tag)); 使用條件做標記,新增紀錄 INSERT INTO tag SELECT * FROM ( SELECT id, '柯文哲' AS tag FROM content WHERE content LIKE '*柯文哲*' UNION ALL SELECT id, '連勝文' AS tag FROM content WHERE content LIKE '*連勝文*'); 進行統計
分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析技巧 進行次數統計、加權統計、檢定、多變量分析等 以ODBC或其它界面,接入到Excel、R、SAS、SPSS等工具
3. 關聯規則 Association rules 尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 Nokia N95 → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性
關聯規則 Association rules (續) 檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數 信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Life = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大
常見有 : Apriori 演算法、 FP growth 演算法
4. 連續行為 Sequential pattern 客戶購買某產品後之某段期間內,會再購買的產品 例:錄影帶 Star War → Empire Strikes Back → Return of the Jedi 常見應用: 消費者之消費行為預測 產品銷售預測 產品製程與存貨預測
連續行為 Sequential pattern (續)
連續行為 Sequential pattern (續) 最熱門連續行為 Jurassic Park → Toy Story , Jurassic Park 2 : Lost World Jurassic Park → Terminator 2 : Judgment Day 行銷建議 產品合購優惠方案 櫃台人員主動推薦 內部商品擺設建議
案例 (1) 台灣最大實體書店 台灣地區大型書籍零售賣場領導品牌,擁有數十萬會員資料,每年會員交易紀錄超過數百萬筆 分析目標 樣本資料 目標 1 : 尋找會員購買商品之間的關聯性 目標 2 : 尋找會員基本資料、與購買商品之間的關聯性 樣本資料 20萬筆會員資料 10萬筆行銷活動收集之名單 二年度的會員交易資料明細
台灣最大實體書店 (續) 針對目標 1,使用關聯分析 (Association) 模組,自動尋找出最具關聯性的購買商品 發現: 意義: 購買 休閒娛樂 類商品的會員, 同時會再購買 旅遊 類商品 購買 乾隆相關 書籍商品的會員, 同時會再購買 雍正王朝 DVD 意義: 可以針對上述具高度關聯性的商品進行搭售與聯合促銷 可以寄送另一商品之促銷訊息予只購買單一商品之會員 賣場動線設計 : 具高度相關之商品應陳列在同一鄰近區域
台灣最大實體書店 (續) 針對目標 2,使用主力客群 (Clustering) 模組,自動尋找出會員資料中與商品特性關聯性最高的欄位 發現: 旅遊 類商品與會員資料中的 性別 與 年齡 欄位有高關聯性 顯著區間:(Female, 30~40) 財經 類商品與會員資料中的 職業 與 收入水準 欄位有高關聯性 顯著區間:(Employee, 500K~800K yearly) 意義: Direct Marketing : 可以將促銷商品 DM 只寄給最具關聯性的潛在客戶。可大幅降低行銷成本,並提高回應率與成交率
台灣最大實體書店 (續) 專案導入: 效果: 該專案執行期間, 由總經理指派專案小組負責 部份商品為少量多樣,如建築類、藝術類、國外進口書等 原先每年寄送的會員 DM 約 100 萬封,每封 DM 成本約 10-12 元,但平均回應率低於2 % 效果: 經過資料分析後,了解客群分布,可進行精準的目標行銷 每年寄送的會員 DM 降為 20 萬封,回應率提高為 8-10 % 可以更準確地開發新客群,以及進行存書控制
用資料庫進行目標行銷 增加曝光 引起興趣 強化需求 造成行動 Conversion Funnel 常見方法:加大開口(提高曝光) 增加準度(目標行銷) 避免過程中跳出(高轉換率)
案例 (2) 亞洲最大線上紅利集點網站 亞洲區最大的線上紅利集點網站,在四個區域 (九個國家)中會員超過350萬人,專門經營線上紅利集點 分析目標 目標 1 : 找出具有高紅利點數的會員族群之特徵 目標 2 : 找出會員資料庫中的主要顯著客群 樣本資料 350萬筆大中國區會員資料庫 每位會員共有25個資料欄位,包括 ID, account, points, email, sex, nickname, birthday, join_date, job 等
線上紅利集點網站 (續) 針對目標 1 ,使用關聯分析 (Association) ,自動尋找出與點數欄位最相關之欄位組合 發現 意義 紅利點數多的會員,與地址Address欄位高度相關 住在台北Taipei的人點數最多 (Confidence 63.5%) 意義 台北市的會員對於該線上紅利集點網站之大中國區 盈收貢獻度最高,最有價值 所有的會員經營與行銷預算,應集中火力於台北地區的會員
線上紅利集點網站 (續) 針對目標 2 ,使用群集分析 (Clustering),自動尋找出特徵最集中的主要會員群集 發現:該網站350萬會員中,有三個最顯著的主力客群 Group 1(55.78%): 年輕人、學生、男性 Group 2(19.53%): 科技業、技術人員、工程師、或經理、男性、半數住在台北 Group 3(7.05%): 科技及服務業、行政助理、秘書、服務人員、女性、半數住在台北 意義 上述族群已超過 80%。可對這三個市場區隔,做行銷預算分配,進行更精準的直效行銷,將可大幅節省行銷成本,並提高效果。
案例 (3) 其它 某大電信業者 : 電信預警系統 依 Peak alarm (突來的不正常之尖峰用量) 與 Region alarm (連續罕用受話號碼或付費號碼) 判斷盜打行為 依系統警示信號預測系統雍塞機率,以預先調配郊區之基地台來支援,達成整體系統使用率之最佳化
在各產業的應用 – 以金融保險業為例
企業擁有許多的資料庫‥‥ 保戶基本資料 保單基本資料 保單繳費紀錄 要保人:郵遞區號、生日、性別、婚姻等 被保人:郵遞區號、生日、性別、婚姻等 保單基本資料 險種代碼、保險金額、繳費方式、紅利發放方式等 保單繳費紀錄 保單年度、保單狀態、年度化保費、實繳保費等 業務單位、銷售管道、卡別等
企業的問題是‥‥ 這些存在 Excel 或 Access 的現成資料,能否協助 如何可以達到上述目標? 了解既有客戶行為模式,做好客戶關係管理 開發新客戶 進行決策支援,選定目標市場與行銷策略 降低行銷成本,提高回應率與成交率 提高營收和顧客滿意度 如何可以達到上述目標?
1. 尋找保戶購買保單的決策模型
保戶保單資料庫 要保人性別 要保人年齡 要保人婚姻狀況 要保人子女數 紅利發放方式 險種 各險種之購買因素?
自動選擇最佳分支條件,產生決策樹
分析:建立客戶決策模型 1. 自動嘗試所有欄位排列組合 2. 找出關鍵決策因素之優先順序 3. 自動切割適當值 4. 自動排除無關因素
應用:預測客戶行為 1. 依客戶狀況提出適當建議 透過Web或Mobile 2. 準確地大量開發新客戶 精準目標與擴散 3. 「科學化」降低行銷成本,提高成交率和營收
2. 尋找最熱門之保戶保單的關聯性
分析目標 分析結果 目標 1 : 保戶基本資料、和購買保單間的熱門關聯性 目標 2 : 購買保單之間的關聯性 (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) (新鴻運終身壽險) → (防癌保本終身健康保險)
如何應用熱門關聯性? (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) 直效行銷 : 可以將商品資訊只推銷給最具關聯性的潛在客戶。可 大幅降低行銷成本,並提高回應率與成交率 (新鴻運終身壽險) → (防癌保本終身健康保險) 搭售、聯合促銷、交叉行銷:可以寄送另一商品之促銷訊息予只 購買單一商品之會員,創造新的營收
3. 尋找主力保戶客群之特徵
盈收貢獻度問題 想了解購買三張保單,或累計投保1000萬以上的 主力客群特徵?
如何應用主力客群特徵分析? 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 52% : 要保人 : 男, 30-40歲, 年收 100-120萬 28% : 要保人 : 已婚, 子女數 > 2 13% : 女性, 台北市, 研究所以上 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 符合 (要保人 : 男, 30-40歲, 年收 100-120萬) 但目前 (購買三張保單或累計投保1000萬以下) 之族群
在各產業的應用 – 以零售通路為例
目標 1 聯合促銷 STEP 1 : 目標 STEP 2 : 分析 收集購買紀錄中,分析商品之間的的關聯性 可依不同的資料尺度進行分析 部門 - 生鮮食品, 摩登服飾, 3C家電等 專櫃 - 佳麗寶, 資生堂, 美爽爽等 品群 - 化妝品, 皮件, 女鞋等 商品 - 水亮唇膏 分析結果 中型免洗盤 → 竹籤 and 竹筷 信心指數 74.3 % 車用吸塵器 → 車用垃圾筒 信心指數 42.8 % 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 信心指數 65.2 %
目標 1 聯合促銷 (續) STEP 3 : 執行 所代表的意義 商品特性關聯 : 車用吸塵器 → 車用垃圾筒 (清潔車內) 消費目的關聯 : 中型免洗盤 → 竹籤 and 竹筷 (郊遊烤肉) 消費族群關聯 : 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 (年輕流行) 擬定促銷策略 搭售 聯合促銷:主題特賣會、折價券 亦可做為商場動線設計,以及進補貨之參考
目標 2 直效行銷 STEP 1 : 目標 STEP 2 : 分析 分析結果 從會員資料與購買紀錄中,找出會員與商品之間的的關聯性 從會員資料與購買紀錄中,尋找會員的連續購買行為 STEP 2 : 分析 分析結果 果汁飲料類 → 女性, 25-35歲, 台北縣市 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲 信心指數 74.1 % 愛狗座墊 → 項圈 →狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 %
目標 2 直效行銷 (續) STEP 3 : 執行 擬定直效行銷策略 針對目標族群寄送行銷訊息 → 成本更低,回應率更高 果汁飲料類 → 女性, 25-35歲 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲, 台北縣市 信心指數 74.1 % 預測消費者購買行為,刺激消費 → 增加營收 愛狗座墊 → 項圈 → 狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 % 辨識目標族群,加以行銷擴散 建立「愛狗族群張貼可愛照片」,或「DIY家居族群分享經驗」
問題討論