常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.

Slides:



Advertisements
Similar presentations
湖南省长沙市第一中学 黄旭华. 开心辞典 1 、现在美国国旗星条旗上有多少颗星 ? 2 、英国绅士为什么总要手提一把雨伞,为什么? 3 、北极的气温比南极的气温高吗? 4 、企鹅是否可以生活在赤道附近? 5 、 “ 沪宁杭 ” 地区的 “ 宁 ” 是指哪座城市? 6 、 “ 七月流火 ” 指天气发生了什么变化?
Advertisements

A-1 A-2 A-3 A-4 A-5 A-7 A-6 A-8 A-9. B-1 B-2 B-3 B-4.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
中三選科— 文科.
認識老年癡呆症 衞生署 長者健康服務 簡介: 「DIY 自助式健康自學/教材套」-「認識老年癡呆症」的使用者毋須具備醫學或護理資格。
第五章 中国的传统伦理道德 中国是一个重视伦理道德的国家,几千年来,伦理道德思想在中国文化中居于中心地位。伦理道德不仅体现于个人的思想品德、行为规范之中,而且和国家、社会的政治生活、经济生活等各方面都有联系。
第一章 会计信息系统 第一节 计算机会计概述.
要SHOW才會贏 教你在生活中學企劃 救國團總團部活動處 文耀忠.
加油添醋話擴寫 日新國小 鄒彩完.
【家庭生活記趣 】 ▲幫忙製作相關標題 有▲記號,請美編設計找圖案.
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
Some Knowledge of Machine Learning(1)
《解决问题能力》培训讲座.
校園登革熱防疫實務分享 永康勝利國小 李季穎.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
价格 经验 利益 对象 信息 资源 承诺 政策 市场 策略性提案技巧课程 策略 策略 方案 创意 创意 文国基 周详计划.
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
第8章 组织职能与组织设计 渤海大学 孙悦博士.
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
「新聞」理論與實務 -新聞介紹與新聞寫作  講授人:李佳鴻.
趣味小故事:马和驴子 在唐太宗贞观年间,有一匹马和一头驴子,它们 是好朋友。贞观3年,这匹马被玄奘大师选中,出 发前往印度取经。17年后,这匹马驮着经书回到长 安,重到磨坊会见驴子朋友。老马谈起这次旅途的 经历,浩瀚无边的沙漠,高耸云霄的山岭,凌云的 冰雪,壮阔的波澜……神话般的一切,让驴子听了 大为惊异、好生羡慕!驴子惊叹到:“你有多么丰.
101學年度大學校院協助高中高職優質精進計畫/子計畫「產學創業企劃實務」
12年國教前哨站 談適性輔導及免試入學 12年國教前哨站 談適性輔導及免試入學 主講人:龍門國中王意蘭 校長 輔導主任 潘姿伶.
臺南市 登革熱疫情 【 Dengue Fever 】 Communicable disease in focus
國語演說的指導訓練與實務分享 桃園縣中原國小 王宣驊.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
关联.
职业素质训练 ——职业规划 一、授课目的:通过课程的学习,让学生明白职业规划的重要性,学会进行个人的职业规划,并对IT行业的现状有一个基本的了解。 二、授课方法:老师讲授与学生自我练习相结合。 三、授课思路: 1、通过调查分析、提问及案例分析引发学生思考职业规划的重要性; 2、阐述职业规划的含义,引导学生分析职业规划的三个要点,从而对职业规划有一个清晰的认识;
凯隆·康桥水郡圣诞节 活动方案.
大学生求职面试全解析 校园招聘.
“差异适应性”教学子模式之语文作文 改变一点点 吴家山第三中学 八年级语文组 张向华.
輔導室業務簡介與相關議題 推動宣導 (生命教育、性別平等教育、特殊教育、親職教育、學習及生涯輔導、弱勢關懷、輔導知能等)
新闻写作刍议.
讀書報告與文獻查證 Yang Chia Chen.
湖南农业大学 通讯的采写.
Introduction to Database Management
沿途风光讲解 全国职业教育数字化资源共建共享 旅游服务与管理 W-1.
資訊管理 第九章 資料採礦.
通过外网访问邮件系统的说明 信息中心.
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
Data Mining 工具介紹 (Weka+JDBC)
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
加油添醋話擴寫 鄒彩完.
文字探勘與知識工程 Text Mining & Knowledge Engineering
Data Mining 工具介紹 (Weka/R + ODBC)
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
SPSS Modeler資料探勘實務基礎 資料探勘與Modeler使用介紹 資料分類-C5.0和CR&T 模型
國立政治大學 資訊科學研究所 知識系統實驗室 研究生: 鄭雍瑋 指導教授: 劉吉軒 博士 中華民國九十五年六月三十日
SpringerLink 新平台介绍.
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
校園小記者.
食記書寫教學 授課教師: 何素月 師 授課TA: 四語四甲 楊育瑄.
Introduction to Database Management
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
職場禮儀 遠東科技大學 夏郭賢.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
BORROWING SUBTRACTION WITHIN 20
檢索與資訊組織 --掌握資訊的贏家 師大圖資所 碩一 陳映后、張榕容.
Course 4 分類與預測 Classification and Prediction
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
校園小記者.
SpringerLink 新平台介绍.
豪雅科技股份有限公司 iSeries Professional Consultant P. 1
Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.
創造思考的開發與培養.
企業導入客戶關係管理(CRM) 建置需求與期望
學校/系所名稱:樹德科技大學/資訊工程系 參賽隊名:宇宙小超人 參賽同學:沈盈哲、候坤誠、康庭飴、蔡佩諭 指導老師:程毓明教授
綜合活動領域 課程規劃與發展實例分享 台南市國教輔導團 邱敏慧 教師.
神的帳幕在人間 Sandy 小五.
Presentation transcript:

常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017

楊立偉教授 專長領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~ 台科大資管系兼任助理教授 2008~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台        龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年榮獲國家雲端創新獎、數位時代「創業之星」首獎

大數據及人工智慧時代的素養 (1) 全球近九成的資料是在過去2年產生,仍在加速當中; 巨大、多樣的數據源,將改變整個產業、社會、學界和政府,不會逆轉。 2005年 2017年 全球資料量(單位:EB) 企業營運 感應器 (物聯網) 社群網站 (影像、視訊與文字) 網路通訊 Source : IBM

大數據及人工智慧時代的素養 (2) 掌握工具技術,了解演算方法, 回到產業核心知識, 做出巨大的貢獻 連結、 邏輯、 程式化 敘述、 預測、 最佳化 環境、農業、交通、能源、 金融、製造、醫療、商業等

大數據及人工智慧時代的素養 (3) 由訓練到自動 「依樣畫葫蘆」、「目標最佳化」 "What Artificial Intelligence Can and Can't Do Right Now" by Andrew Ng, Harvard Business Review, 2016 Nov.

善用數據、人工智慧、以及群體智慧 data mining 根據過往紀錄,猜你喜歡 個人化、適性化、最佳化 collaborative filtering "看了這些的人通常也看了 這些…"

登革熱地圖 由網友製作,使用政府大數據,每日自動更新,呈現近兩週病人數達2例以上之地理分布,發布單位約450人之生活圈,相當精準。 Disease Control and Prevention - Dengue fever 由登革病毒所引起的急性傳染病,會經由蚊子傳播給人類。症狀輕微不明顯,到發燒、出疹,或出現嗜睡、躁動、肝臟腫大等警示,嚴重至出血或器官損傷的重症。 全球登革熱的好發地區,主要集中在熱帶、亞熱帶。自1980年代全球化發展後,各國交流往返趨於頻繁,登革熱也開始向各國蔓延,成為嚴重的公共衛生問題 2015年臺南市所爆發的登革熱疫情,最初出現在北區,而後擴散到全市,再蔓延至全島。確診病例超過4萬人,死亡病例218人。 來源: kiang.github.io

溫室氣體排放趨勢 由網友製作,使用政府大數據,依照排放氣體體種類 (二氧化碳 + 甲烷 + 二氧化氮) 或依排放來源切換,呈現長時間的趨勢。 排放氣體以 CO2 為主,排放量一直成長至 2007 後趨緩 甲烷排放量逐年減少,與垃圾掩埋場的處理程序改善有關 依排放來源,主要來自能源工業、製造工業與營建,以及運輸業 來源: muyueh.com

用數據看台灣 台灣水庫即時水情 台灣地狹山高,雨量雖多但流失也快,大量仰賴水庫蓄水供水。 運用儀器自動感測,結合大數據分析,了解全台灣各水庫蓄水量,並用預測公式算出剩餘供水天數,掌握缺水情況及停水資訊。 來源: 用數據看台灣

大數據及人工智慧的倫理及道德 資訊鴻溝、數據歧視、機器霸凌、以及更多的詐騙欺偽及濫權 從教育著手,用人類智慧避免歷史重演 "用數據模型替每個人打分數時,舉凡信用、教育、健康等方面,帶來了潛在的黑箱、歧視、道德危機。" 從教育著手,用人類智慧避免歷史重演

演算法導論

常見的 Data Mining 模組 關聯規則 Association rules 群集分析 Clustering 分類預測 Classification

基本原理:共現分析 產品組合 {2,5} 或 {2,3,5} 最常被一起購買

關聯規則 Association rules 尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 Nokia N95 → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性

常見有 : Apriori 演算法、 FP growth 演算法

關聯規則 Association rules (續) 檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數 信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Lift = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大

檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10% 代表重要 non-trivial 600筆 啤酒 500筆 檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10% 代表重要 non-trivial 信心度 Confidence = 100/600=16.6% 代表準確 提升度 Lift = (100/600) / (500/1000) = 33.3% 代表特別 共同 購買 100筆

案例 (1) 台灣最大實體書店 台灣地區大型書籍零售賣場領導品牌,擁有數十萬會員資料,每年會員交易紀錄超過數百萬筆 分析目標 樣本資料 目標 1 : 尋找會員購買商品之間的關聯性 目標 2 : 尋找會員基本資料、與購買商品之間的關聯性 樣本資料 20萬筆會員資料 10萬筆行銷活動收集之名單 二年度的會員交易資料明細

台灣最大實體書店 (續) 針對目標 1,使用關聯分析 (Association) 模組,自動尋找出最具關聯性的購買商品 發現: 意義: 購買 休閒娛樂 類商品的會員, 同時會再購買 旅遊 類商品 購買 乾隆相關 書籍商品的會員, 同時會再購買 雍正王朝 DVD 意義: 可以針對上述具高度關聯性的商品進行搭售與聯合促銷 可以寄送另一商品之促銷訊息予只購買單一商品之會員 賣場動線設計 : 具高度相關之商品應陳列在同一鄰近區域

台灣最大實體書店 (續) 針對目標 2,使用主力客群 (Clustering) 模組,自動尋找出會員資料中與商品特性關聯性最高的欄位 發現: 旅遊 類商品與會員資料中的 性別 與 年齡 欄位有高關聯性 顯著區間:(Female, 30~40) 財經 類商品與會員資料中的 職業 與 收入水準 欄位有高關聯性 顯著區間:(Employee, 500K~800K yearly) 意義: Direct Marketing : 可以將促銷商品 DM 只寄給最具關聯性的潛在客戶。可大幅降低行銷成本,並提高回應率與成交率

台灣最大實體書店 (續) 專案導入: 效果: 該專案執行期間, 由總經理指派專案小組負責 部份商品為少量多樣,如建築類、藝術類、國外進口書等 原先每年寄送的會員 DM 約 100 萬封,每封 DM 成本約 10-12 元,但平均回應率低於2 % 效果: 經過資料分析後,了解客群分布,可進行精準的目標行銷 每年寄送的會員 DM 降為 20 萬封,回應率提高為 8-10 % 可以更準確地開發新客群,以及進行存書控制

群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布 常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔

分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity) Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定

Why do we need clustering ? For better data overview and summarization 可以概括地了解資料 For better data navigation 更好的資料導覽 For speeding up data processing 加速資料處理 For better user interface and data visualization 更好的使用者介面及資料視覺呈現 For better search results 更好的搜尋結果

Wise et al, “Visualizing the non-visual” PNNL ThemeScapes, Cartia [Mountain height = cluster size]

分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據 可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷

分類預測 : 眼科診所病例

分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹

決策樹演算法 範例 Weather Data: Play tennis or not ?

Which attribute to choose ?

Which attribute to choose ? choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64

第一層選擇outlook 重複產生分支, 直到結束或終止條件為止

練習 使用SQL group by協助,產生次數統計表 進行information gain計算 決定欄位,之後再重複上述動作

分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析技巧 進行次數統計、加權統計、檢定、多變量分析等 以ODBC或其它界面,接入到Excel、R、SAS、SPSS等工具

案例 (2) 亞洲最大線上紅利集點網站 亞洲區最大的線上紅利集點網站,在四個區域 (九個國家)中會員超過350萬人,專門經營線上紅利集點 分析目標 目標 1 : 找出具有高紅利點數的會員族群之特徵 目標 2 : 找出會員資料庫中的主要顯著客群 樣本資料 350萬筆大中國區會員資料庫 每位會員共有25個資料欄位,包括 ID, account, points, email, sex, nickname, birthday, join_date, job 等

線上紅利集點網站 (續) 針對目標 1 ,使用關聯分析 (Association) ,自動尋找出與點數欄位最相關之欄位組合 發現 意義 紅利點數多的會員,與地址Address欄位高度相關 住在台北Taipei的人點數最多 (Confidence 63.5%) 意義 台北市的會員對於該線上紅利集點網站之大中國區 盈收貢獻度最高,最有價值 所有的會員經營與行銷預算,應集中火力於台北地區的會員

線上紅利集點網站 (續) 針對目標 2 ,使用群集分析 (Clustering),自動尋找出特徵最集中的主要會員群集 發現:該網站350萬會員中,有三個最顯著的主力客群 Group 1(55.78%): 年輕人、學生、男性 Group 2(19.53%): 科技業、技術人員、工程師、或經理、男性、半數住在台北 Group 3(7.05%): 科技及服務業、行政助理、秘書、服務人員、女性、半數住在台北 意義 上述族群已超過 80%。可對這三個市場區隔,做行銷預算分配,進行更精準的直效行銷,將可大幅節省行銷成本,並提高效果。

案例 (3) 其它 某大電信業者 : 電信預警系統 依 Peak alarm (突來的不正常之尖峰用量) 與 Region alarm (連續罕用受話號碼或付費號碼) 判斷盜打行為 依系統警示信號預測系統雍塞機率,以預先調配郊區之基地台來支援,達成整體系統使用率之最佳化

在各產業的應用 – 以零售通路為例

目標 1 聯合促銷 STEP 1 : 目標 STEP 2 : 分析 收集購買紀錄中,分析商品之間的的關聯性 可依不同的資料尺度進行分析   部門 - 生鮮食品, 摩登服飾, 3C家電等 專櫃 - 佳麗寶, 資生堂, 美爽爽等   品群 - 化妝品, 皮件, 女鞋等 商品 - 水亮唇膏 分析結果 中型免洗盤 → 竹籤 and 竹筷 信心指數 74.3 % 車用吸塵器 → 車用垃圾筒 信心指數 42.8 % 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 信心指數 65.2 %

目標 1 聯合促銷 (續) STEP 3 : 執行 所代表的意義 商品特性關聯 : 車用吸塵器 → 車用垃圾筒 (清潔車內) 消費目的關聯 : 中型免洗盤 → 竹籤 and 竹筷 (郊遊烤肉) 消費族群關聯 : 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 (年輕流行) 擬定促銷策略 搭售 聯合促銷:主題特賣會、折價券 亦可做為商場動線設計,以及進補貨之參考

目標 2 直效行銷 STEP 1 : 目標 STEP 2 : 分析 分析結果 從會員資料與購買紀錄中,找出會員與商品之間的的關聯性 從會員資料與購買紀錄中,尋找會員的連續購買行為 STEP 2 : 分析 分析結果 果汁飲料類 → 女性, 25-35歲, 台北縣市 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲 信心指數 74.1 % 愛狗座墊 → 項圈 →狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 %

目標 2 直效行銷 (續) STEP 3 : 執行 擬定直效行銷策略 針對目標族群寄送行銷訊息 → 成本更低,回應率更高 果汁飲料類 → 女性, 25-35歲 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲, 台北縣市 信心指數 74.1 % 預測消費者購買行為,刺激消費 → 增加營收 愛狗座墊 → 項圈 → 狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 % 辨識目標族群,加以行銷擴散 建立「愛狗族群張貼可愛照片」,或「DIY家居族群分享經驗」

問題討論