常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.

Slides:



Advertisements
Similar presentations
发 热 ( Fever ). 机体在致热原作用下,或各种原因引起体温 调节中枢功能紊乱,使产热增多,散热减少, 体温升高超出正常范围。 正常成人口腔温度相对恒定 36.3 ~ 37.2 ℃, 肠温较口温高 0.3 ~ 0.5 ℃,腋温较口温低 0.2 ~ 0.4 ℃。 一、概念.
Advertisements

仪 容. 一、化妆的技巧 眼部的化妆 唇部化妆 眉部化妆 鼻部化妆 根据脸型化妆 根据脸型选发型.
大教育家孔子 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日,一座总高为 9.5 米的孔 子青铜雕像在国家博物馆北广场落成。
什 麼 是 大 數 據 ?. Q :大數據是什麼? A :大數據( Big Data )又被稱為巨量資料,其概念其實就是過去 10 年廣泛用於企業內部的資料分析、商業智慧( Business Intelligence ) 和統計應用之大成。但大數據現在不只是資料處理工具,更是一種 企業思維和商業模式,因為資料量急速成長、儲存設備成本下降、
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
世界读书日 4月23日.
古诗鉴赏 (常用答题方法 ).
第一章 会计信息系统 第一节 计算机会计概述.
第三课 氓.
加油添醋話擴寫 日新國小 鄒彩完.
梦想的力量 博湖一小 赵秀珍. 梦想的力量 博湖一小 赵秀珍 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。 瑞恩的梦想是什么?他是怎样实现自己的梦想的? 梦想的力量是什么? 读课文,你有什么感受和体会,相互交流一下。还可以把自己想到的写下来。
欢迎各位老师莅临指导! 高中一年级生物 授课人:刘敏 授课班级:C332.
数据分析及研究方法 ——以如何从事宏观经济课题研究为例
2、加一笔成新字 一 →二 二 →三、干、工 十 →土、士 口 →日、中 日 →目、白、田 月 →用 目 →自 木 →禾、本 大 →天、太、犬 人 →大、个 了 →子.
(供学校/社区/单位等开展健康教育使用)
常州市戚墅堰实验中学 虞超群 执教 《诗经》选读 卫风·氓.
作文训练: 突出中心.
愛情直播不NG -破解戀愛迷思 嘉南藥理科技大學 學生輔導中心.
校園登革熱防疫實務分享 永康勝利國小 李季穎.
四组制作: 许顺楠、姬少丽、李澎、刘伏、 徐娅丽、李頔
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
贴近教学 服务师生 方便老师.
价格 经验 利益 对象 信息 资源 承诺 政策 市场 策略性提案技巧课程 策略 策略 方案 创意 创意 文国基 周详计划.
------全国教育科学规划办公室 吴键 副研究员
我们会赞叹生命之花的绚丽和多姿,也会歌颂生命之树的烂漫和青翠,但是生命是如此脆弱……
TALK ABOUT 数据挖掘-十大经典法 QianShi Li-Design
趣味小故事:马和驴子 在唐太宗贞观年间,有一匹马和一头驴子,它们 是好朋友。贞观3年,这匹马被玄奘大师选中,出 发前往印度取经。17年后,这匹马驮着经书回到长 安,重到磨坊会见驴子朋友。老马谈起这次旅途的 经历,浩瀚无边的沙漠,高耸云霄的山岭,凌云的 冰雪,壮阔的波澜……神话般的一切,让驴子听了 大为惊异、好生羡慕!驴子惊叹到:“你有多么丰.
臺南市 登革熱疫情 【 Dengue Fever 】 Communicable disease in focus
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
第八章 心理差异与因材施教 第一节 智力因素的个别差异与教育.
欢 迎 您 ! 荣县电大 毕忠权.
义务教育课程标准实验教科书二年级下册 玲玲的画 山东滨州市无棣县棣丰街道中心小学 曹雪敏. 生活中有些事真有意思!要是肯动 脑筋,坏事也能变成好事;要是肯动脑 筋,看来不可能办成的事也能办成。碰 到问题,我们要认真想想,找到解决问 题的办法,做个善于思考的孩子。
歌咏对象是谁? 1)志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 2)翁去八百载,醉乡犹在; 山行六七里,亭影不孤。 3)刚直不阿,留得正气冲霄汉; 幽愁发愤,著成信史照尘寰。 4)世上疮痍,诗中圣哲; 人间疾苦,笔底波澜。 屈原 欧阳修 司马迁 杜甫.
项羽之死 司马迁.
职业素质训练 ——职业规划 一、授课目的:通过课程的学习,让学生明白职业规划的重要性,学会进行个人的职业规划,并对IT行业的现状有一个基本的了解。 二、授课方法:老师讲授与学生自我练习相结合。 三、授课思路: 1、通过调查分析、提问及案例分析引发学生思考职业规划的重要性; 2、阐述职业规划的含义,引导学生分析职业规划的三个要点,从而对职业规划有一个清晰的认识;
第三章 古代汉语语法 3—1古汉语语法及其研究 一、《马氏文通》以前的《古汉语研究》
大学生求职面试全解析 校园招聘.
词 五 首.
第一章 神话.
— —1998年全世界诺贝尔获奖者集会巴黎时的宣言
重点字词: 1、吾党之小子狂简 3、暴虎冯河 5、无所取材! 6、予所否者,天厌之 8、子哭之恸.
資訊管理 第三章 數位化企業.
(供学校/社区/单位等开展健康教育使用)
项目六 职业生涯规划的方法与步骤.
資訊管理 第九章 資料採礦.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1.
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Data Mining 工具介紹 (Weka+JDBC)
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
加油添醋話擴寫 鄒彩完.
Data Mining 工具介紹 (Weka/R + ODBC)
常用資料採礦技術介紹 關聯分組(associations)、分類(classification)、時序相關(sequence)、預測(forecasting)、群集化(clustering)以及描述等分析作業,目前常用的資料採礦技術有決策樹、類神經網路、基因演算法以及即時線上分析(OLAP)
生 物 信 息 学 Bioinformatics 巩晶 癌症研究中心 山东大学 医学院
第十三章 網路行銷重要議題 網際網路行銷 Web 2.0.
永續運輸資訊系統 -交通事故資料分析研究 周家慶 高級分析師 交通部運輸研究所.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
職場禮儀 遠東科技大學 夏郭賢.
Course 4 分類與預測 Classification and Prediction
查询与视图 蔡海洋.
水足跡調查報告發表 環境品質文教基金會 董事長 謝英士
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
第十二章 顧客關係管理.
Warm-up Sing a song.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.
說話的藝術 香港仔工業學校 盧仲衡老師.
綜合活動領域 課程規劃與發展實例分享 台南市國教輔導團 邱敏慧 教師.
Term Project : Requirement
Presentation transcript:

常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018

講者介紹 楊立偉教授 研究領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~ 台大資管系兼任助理教授 2017~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台 龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名        經歷 獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 榮獲國家雲端創新獎、數位時代「創業之星」首獎 獲數位時代雜誌選為代表台灣軟體的封面人物之一

大數據及人工智慧時代的素養 (1) 全球近九成的資料是在過去2年產生,仍在加速當中; 巨大、多樣的數據源,將改變整個產業、社會、學界和政府,不會逆轉。 2005年 2017年 全球資料量(單位:EB) 企業營運 感應器 (物聯網) 社群網站 (影像、視訊與文字) 網路通訊 Source : IBM

大數據及人工智慧時代的素養 (2) 掌握工具技術,了解演算方法, 回到產業核心知識, 做出巨大的貢獻 連結、 邏輯、 程式化 敘述、 預測、 最佳化 環境、農業、交通、能源、 金融、製造、醫療、商業等

大數據及人工智慧時代的素養 (3) 由訓練到自動,「依樣畫葫蘆」 目標-嘗試-獎勵,相互對抗 臉部辨識 貸款核准 精準廣告 語音辨識 機器翻譯 自動駕駛 "What Artificial Intelligence Can and Can't Do Right Now" by Andrew Ng, Harvard Business Review, 2016 Nov.

+ 大數據是油田 人工智慧是煉油廠 ?

大數據加上 AI 煉油廠能做些什麼? 陳昇瑋, 讓資料為你產生價值, 2017

善用數據、人工智慧、以及群體智慧 data mining 根據過往紀錄,猜你喜歡 個人化、適性化、最佳化 collaborative filtering "看了這些的人通常也看了 這些…"

登革熱地圖 由網友製作,使用政府大數據,每日自動更新,呈現近兩週病人數達2例以上之地理分布,發布單位約450人之生活圈,相當精準。 Disease Control and Prevention - Dengue fever 由登革病毒所引起的急性傳染病,會經由蚊子傳播給人類。症狀輕微不明顯,到發燒、出疹,或出現嗜睡、躁動、肝臟腫大等警示,嚴重至出血或器官損傷的重症。 全球登革熱的好發地區,主要集中在熱帶、亞熱帶。自1980年代全球化發展後,各國交流往返趨於頻繁,登革熱也開始向各國蔓延,成為嚴重的公共衛生問題 2015年臺南市所爆發的登革熱疫情,最初出現在北區,而後擴散到全市,再蔓延至全島。確診病例超過4萬人,死亡病例218人。 來源: kiang.github.io

溫室氣體排放趨勢 由網友製作,使用政府大數據,依照排放氣體體種類 (二氧化碳 + 甲烷 + 二氧化氮) 或依排放來源切換,呈現長時間的趨勢。 排放氣體以 CO2 為主,排放量一直成長至 2007 後趨緩 甲烷排放量逐年減少,與垃圾掩埋場的處理程序改善有關 依排放來源,主要來自能源工業、製造工業與營建,以及運輸業 來源: muyueh.com

用數據看台灣 台灣水庫即時水情 台灣地狹山高,雨量雖多但流失也快,大量仰賴水庫蓄水供水。 運用儀器自動感測,結合大數據分析,了解全台灣各水庫蓄水量,並用預測公式算出剩餘供水天數,掌握缺水情況及停水資訊。 來源: 用數據看台灣

大數據及人工智慧的倫理及道德 資訊鴻溝、數據歧視、機器霸凌、以及更多的詐騙欺偽及濫權 從教育著手,用人類智慧避免歷史重演 "用數據模型替每個人打分數時,舉凡信用、教育、健康等方面,帶來了潛在的黑箱、歧視、道德危機。" 從教育著手,用人類智慧避免歷史重演

演算法導論

常見的 Data Mining 模組 關聯規則 Association rules 群集分析 Clustering 分類預測 Classification

基本原理:共現分析 Support ≧ 2 最常被一起購買的產品組合 組合數為2時 : {2,5} 組合數為3時 : {2,3,5}

1. 關聯規則 Association rules 尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 iPhone7 Plus → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性

檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數 信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Lift = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大

Association 檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10% 600筆 啤酒 500筆 Association 檢驗方式 尿布→啤酒 支持度 Support = 100/(500+600-100)=10% 代表重要 non-trivial 信心度 Confidence = 100/600=16.6% 代表準確 提升度 Lift = (100/600) / (500/1000) = 33.3% 代表特別 共同 購買 100筆 Lift的說明: 假設1000筆資料中有500筆有買啤酒(兩個中就有一個),今600筆買尿布中只有100筆有買啤酒,顯低於原本之機率(密度),故稱找到的是common sense。「報告,我發現有鼻子的人都有眼睛」「孩子,這是廢話,每個人本來就都有眼睛」

案例 : 尋找金融業保戶/保單間的關聯性 分析目標 分析結果 目標 1 : 保戶基本資料、和購買保單間的熱門關聯性 目標 2 : 購買保單之間的關聯性 分析結果 (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) (新鴻運終身壽險) → (防癌保本終身健康保險)

如何應用熱門關聯性? (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) 直效行銷 : 可以將商品資訊只推銷給最具關聯性的潛在客戶。可 大幅降低行銷成本,並提高回應率與成交率 (新鴻運終身壽險) → (防癌保本終身健康保險) 搭售、聯合促銷、交叉行銷:可以寄送另一商品之促銷訊息予只 購買單一商品之會員,創造新的營收

2. 群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布 常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔

分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity) Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定

案例 : 金融業高貢獻度保戶之客群分析

如何應用主力客群特徵分析? 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 52% : 要保人 : 男, 30-40歲, 年收 100-120萬 28% : 要保人 : 已婚, 子女數 > 2 13% : 女性, 台北市, 研究所以上 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 符合  (要保人 : 男, 30-40歲, 年收 100-120萬) 但目前 (購買三張保單或累計投保1000萬以下) 之族群

3. 分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據 可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷

分類預測 : 眼科診所病例

分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹

決策樹演算法 範例 Weather Data: Play tennis or not ?

Which attribute to choose ?

Which attribute to choose ? choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64

第一層選擇outlook,往下重複產生分支,直到結束或終止條件為止 這5筆資料,用剩下的humidity, windy, temperature再去計算 (最後選humidity) 不用再算 這5筆資料,同樣也用剩下的humidity, windy, temperature去算 (圖略)

最後的結果

案例 : 金融業保戶的購買決策模型 1. 自動嘗試所有欄位排列組合 2. 找出關鍵決策因素之優先順序 3. 自動切割適當值 4. 自動排除無關因素

應用方式 依客戶狀況提出適當建議 (透過Web或Mobile推播) 準確地大量開發新客戶 精準目標與擴散 降低行銷成本,提高成交率和營收

練習 – 以決策樹為例 使用SQL group by協助,產生次數統計表 進行information gain計算 決定欄位,之後再重複上述動作

練習 – 其他分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析方法 進行次數統計、加權統計、檢定、多變量分析等 以ODBC/JDBC或其它界面,接到Excel、R、SAS、SPSS等工具

問題討論