巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.

Slides:



Advertisements
Similar presentations
第二章 简单的 SQL 语句. 本章要点  创建一个简单的表  SQL 语句介绍  最简单的查询语句 select  带有限制条件的查询  查询结果的排序显示.
Advertisements

第 7 章 数据库 1. Overview  数据库概述  数据库管理系统  数据库的体系结构和数据库模型  SQL 语言  数据库技术  构建数据库系统 2.
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
第5章 关系数据库标准语言SQL 主讲:张丽芳.
第2讲 Transact-SQL语言.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
第5章 索引及视图操作 数据库原理应用与实践 SQL SERver2014(第2版) 主编 贾铁军 科学出版社 编著 陈国秦 万程 邢一鸣
OceanBase 0.4:从API到SQL 日照
第4章 关系数据库标准语言SQL 4.1 SQL语言概述 4.2 SQL数据查询功能 4.3 SQL数据操作功能 4.4 SQL数据定义功能.
数据库概述 简而言之,数据库(DataBase)就是一个存储数据的仓库。为了方便数据的存储和管理,它将数据按照特定的规律存储在磁盘上。通过数据库管理系统,可以有效的组织和管理存储在数据库中的数据。如今,已经存在了Oracle、SQL Server、MySQL等诸多优秀的数据库。在这一章中将讲解的内容包括。
巨量資料平台: Hadoop的生態系.
第 八 章 資料庫安全 本投影片(下稱教用資源)僅授權給採用教用資源相關之旗標書籍為教科書之授課老師(下稱老師)專用,老師為教學使用之目的,得摘錄、編輯、重製教用資源(但使用量不得超過各該教用資源內容之80%)以製作為輔助教學之教學投影片,並於授課時搭配旗標書籍公開播放,但不得為網際網路公開傳輸之遠距教學、網路教學等之使用;除此之外,老師不得再授權予任何第三人使用,並不得將依此授權所製作之教學投影片之相關著作物移作他用。
关联.
第三章 管理信息系统的技术基础 主要内容: 数据处理 数据组织 数据库技术 4. 计算机网络.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
留德讲坛 2011年6月19日.
資料庫管理 資管二 賴柏融.
第2章 数据定义功能 创建表 在关系型数据模型中,表(Table)是最基本的数据结构。
Introduction to Database Management
資訊管理 第三章 數位化企業.
資訊管理 第九章 資料採礦.
通过外网访问邮件系统的说明 信息中心.
SpringerLink springerlink.com
第六章 學習SQL語言.
資料庫系統 Database Systems
線上分析處理、 資料採礦與 Analysis Services
課程名稱:資料庫系統 授課老師:李春雄 博士
Chap 10 SQL定義、操作與控制指令.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Data Mining 工具介紹 (Weka+JDBC)
資料庫安全 (Database Security)
彰化縣政府補助辦理網頁設計資料庫應用班 資料庫簡介 建國技術學院資管系 饒瑞佶.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
HBase简介与实践分享 剑英.
第4章(2) 空间数据库 —关系数据库 北京建筑工程学院 王文宇.
5 数据库管理与保护 数据库运行的最小逻辑工作单位是事务,所有对数据库的操作,都以事务作为一个整体来执行或撤销。
Data Mining 工具介紹 (Weka/R + ODBC)
MySQL数据库基础与实例教程 之 MySQL表结构的管理 郭水泉.
第七章 客服管理中心之系統規劃與建構 -以AvecCRM為例
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
SQL SERVER 一些经典语句 1.
iRepor报表设计基础 IReport安装 普通实体报表 数据结果集报表 工作流主从报表 饼状图报表 柱状图,曲线图报表 条形码报表
Introduction to Database Management
第20章 MySQL数据库.
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
成品检查报告 Inspection Report
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
Term Project : Requirement
CS, ZJU 4/18/2019 Chapter 7 数据库.
3.2 Mysql 命令行 1 查看数据库 SHOW DATABASES; 2 创建一个数据库test1 CREATE DATABASE test1; 3 选择你所创建的数据库 USE test1; (按回车键出现Database changed 时说明操作成功!) 4 查看现在的数据库中存在什么表.
SAP Query 建立User Group (SQ03) 建立Infoset (SQ02)
数据透视表与SQL典型应用 ——数据分析人士必杀技
SQL查询语句 蔡海洋.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
第三章 SQL Server数据管理.
第十二章 顧客關係管理.
資料庫管理 Database Managent Ex.1-2 課本範例練習
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2017.
Enterprise Resource Planning System 企業資源規劃系統
Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.
企業導入客戶關係管理(CRM) 建置需求與期望
数据分析工具 第10节.
資料庫管理 HOMEWORK #2 楊立偉教授 台灣大學工管系 2013 Fall.
商業智慧實務 Practices of Business Intelligence
Term Project : Requirement
第4章 数据查询.
Web安全基础教程
数据库应用技术 天津电大 翟迎建.
Presentation transcript:

巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall

楊立偉教授 專長領域為資料庫及語意分析技術、知識管理、數位行銷 現任 台大工管系暨商研所兼任助理教授 2006~ 台科大資管系兼任助理教授 2008~ 資訊及通信國家標準技術委員 意藍資訊   董事總經理(創辦人) 1999~        國內規模最大的網路情報與社群口碑自動分析平台        龍捲風科技  董事總經理        國內企業搜尋引擎市佔率最高;國際檢索競賽第一名 經歷 智威湯遜數位行銷首席顧問、尚藍互動行銷共同創辦人 2009年獲選100 MVP最有價值經理人,擁有超過20項語意分析專利 2012年榮獲國家雲端創新獎、數位時代「創業之星」首獎

巨量資料 – 導論

Trend of Big Data Big Data 係指資料大量成長 根據IBM的研究,全世界90%的資料是在過去2年產生 Google、Facebook 等,就是站在Big Data上的範例 巨大的數據源,將改變整個學術界,商界和政府 依賴新的資訊科技來處理 包括 capture, storage, search, analytics 等

"Data Scientist : The sexist job of the 21st century", Harvard Business Review, Oct 2012 巨量資料人才 需求大幅增加

Obama Administration : Big Data is a Big Deal 白宮在2012年3月宣布,將投資2億美元啟動「海量資料研究 和發展計畫」,包括Big Data分析及Big Data在醫療、天氣和國防等領域的運用;白宮甚至將數據資料定義為「未來的新石油」。顯然,一個國家擁有數據資料的規模和解釋運用的能力,已成為一國核心資產和國力指標。(中國時報 2013/5/12)

Big Data 的主要來源 Enterprise data, Social data, Machine data User data, transaction data, social data, machine data Enterprise data, Social data, Machine data Source : IBM 2012全球CEO調查報告

Big Data 的特性 數量大、產生速度快、多樣性、可能存有誤差資料 Source : IBM Big Data Hub

Big Data 的應用方式 運用資料與演算,達成智慧決策 Source : IBM 2012全球CEO調查報告

Business Intelligence 企業商業智慧 顯性知識 資料庫 企業文件、報告 會議紀錄、電子郵件等 企業商業智慧 Business Intelligence 企業決策的基礎 隱性知識 人類難以用肉眼觀察者 大量交易資料、客戶資料等 難以用人工分析者

企業商業智慧的用途 運用資料探勘技術,所發掘出的隱性知識,可以協助企業: 了解舊客戶行為,做好客戶關係管理 開發新客戶 決策支援,選定目標市場與行銷策略 降低行銷成本,提高回應率與成交率 銷貨預測,創造營收、降低庫存,提高營運效率

Marketing and CRM Cycle Data Warehousing Data Mining E-Marketing

巨量資料 – 分析技術

Big data 的資料種類 企業的結構性資料 與 非結構性資料

Twitter Zynga 200 million tweets per day Peak 10,000 per second How to analyze the data ? Zynga "Analytics company, not a gaming company“ 230 million players per month Harvest 15TB data per day test new features target advertising 4U box = 40 TB 1PB = 25 boxes

Facebook 6 billion messages per day 2 PB (compressed) online 6 PB replication 250 TB growth per month Cassandra / HBase architecture

eBay Analyze & Report Discover & Explore

Big data 的分析方式 結構性資料分析 非結構性資料分析 Data Mining 資料探勘 Text Mining 文字探勘 轉結構性資料

(1) 結構性資料分析 資料探勘 Data Mining 從大量資料或歷史資料中,透過人工智慧、類神經網路等技術,找出人類難以觀察出、或傳統之統計所無法發現之隱性知識。 這些隱性知識包括分布趨勢、決策樹、關聯性、連續性等,對行銷與客戶關係經營有重大價值。

常見的 Data Mining 模組 群集分析 Clustering 分類預測 Classification 關聯規則 Association rules 連續行為 Sequential pattern analysis

基本原理:以相關性分析為例 產品組合 {2,5} 或 {2,3,5} 最常被一起購買

1. 群集分析 Clustering 自動尋找大量欄位與資料中最主要與最顯著之群集分布 常見應用:從客戶中找出顯著之主力客群,做為目標市場區隔

分群演算法 K-means 範例 (K=2) x x 重點在計算資料相似性 (similarity) Pick seeds Reassign clusters Compute centroids x Reassign clusters x Compute centroids Reassign clusters Converged! 重點在計算資料相似性 (similarity) 視資料與群集多寡,通常做3至4回就大致穩定

2. 分類預測 Classification 利用資料庫內每筆資料的已知欄位,預測目標欄位之值,並做為分類的依據 可以將大量資料轉化成人類易於了解的知識樹 常見應用:信用評等、消費行為預測、病症診斷

分類預測 : 眼科診所病例

分類預測 : 眼科診所病例 (續) 自動選擇最佳分支條件,產生決策樹

決策樹演算法 範例 Weather Data: Play tennis or not ?

Which attribute to choose ?

Which attribute to choose ? choose the attribute that produces the "purest" nodes …and more informative 常見演算法 Information gain (ID3, C4.5, C5) ig(outlook) = average(3/5, 4/4, 3/5) = 0.73 ig(humidity) = average(4/7, 6/7) = 0.71 ig(windy) = average(6/8, 3/6) = 0.63 ig(temperature) = average(2/4, 4/6, 3/4) = 0.64

第一層選擇outlook 重複產生分支, 直到結束或終止條件為止

練習 使用SQL group by協助,產生次數統計表 進行information gain計算 決定欄位,之後再重複上述動作

非結構資料的處理 – 欄位化

a

利用標記 – 方式(1) 新增標記欄位 tag1, tag2,… ALTER TABLE content ADD tag1 int, tag2 int; 使用條件做標記 UPDATE content SET tag1 = 1 WHERE content LIKE '*柯文哲*'; UPDATE content SET tag2 = 1 WHERE content LIKE '*連勝文*'; 進行統計 SELECT sum(tag1) as '柯文哲篇數', sum(tag2) as '連勝文篇數' FROM content;

利用標記 – 方式(2) 新增一張表 CREATE TABLE tag (id int, tag char(20), primary key (id, tag)); 使用條件做標記,新增紀錄 INSERT INTO tag SELECT * FROM ( SELECT id, '柯文哲' AS tag FROM content WHERE content LIKE '*柯文哲*' UNION ALL SELECT id, '連勝文' AS tag FROM content WHERE content LIKE '*連勝文*'); 進行統計

分析技巧 使用更複雜的WHERE / LIKE 條件做標記 將非結構資料與結構資料一起分析 運用更多數值分析技巧 進行次數統計、加權統計、檢定、多變量分析等 以ODBC或其它界面,接入到Excel、R、SAS、SPSS等工具

3. 關聯規則 Association rules 尋找每筆交易中被同時購買之商品的關聯性 Buy (milk) → Buy (bread) 信心度 80 % 尋找消費者與商品之間關聯性 Nokia N95 → 男性、上班族、年收入80-120萬 信心度 60 % 亦可尋找任何人、事、物彼此間同時出現之關聯性

關聯規則 Association rules (續) 檢驗方式 若 X→Y 支持度 Support = P(X∩Y) = 包含X及Y的筆數 / 總交易筆數 信心度 Confidence = P(Y | X) = 包含X及Y的筆數 / 包含X的筆數 提升度 Life = P(Y | X) / P(Y) = 信心度 / (包含Y的筆數 / 總交易筆數) 三者代表不同意義,越高實用價值越大

常見有 : Apriori 演算法、 FP growth 演算法

4. 連續行為 Sequential pattern 客戶購買某產品後之某段期間內,會再購買的產品 例:錄影帶 Star War → Empire Strikes Back → Return of the Jedi 常見應用: 消費者之消費行為預測 產品銷售預測 產品製程與存貨預測

連續行為 Sequential pattern (續)

連續行為 Sequential pattern (續) 最熱門連續行為 Jurassic Park → Toy Story , Jurassic Park 2 : Lost World Jurassic Park → Terminator 2 : Judgment Day 行銷建議 產品合購優惠方案 櫃台人員主動推薦 內部商品擺設建議

案例 (1) 台灣最大實體書店 台灣地區大型書籍零售賣場領導品牌,擁有數十萬會員資料,每年會員交易紀錄超過數百萬筆 分析目標 樣本資料 目標 1 : 尋找會員購買商品之間的關聯性 目標 2 : 尋找會員基本資料、與購買商品之間的關聯性 樣本資料 20萬筆會員資料 10萬筆行銷活動收集之名單 二年度的會員交易資料明細

台灣最大實體書店 (續) 針對目標 1,使用關聯分析 (Association) 模組,自動尋找出最具關聯性的購買商品 發現: 意義: 購買 休閒娛樂 類商品的會員, 同時會再購買 旅遊 類商品 購買 乾隆相關 書籍商品的會員, 同時會再購買 雍正王朝 DVD 意義: 可以針對上述具高度關聯性的商品進行搭售與聯合促銷 可以寄送另一商品之促銷訊息予只購買單一商品之會員 賣場動線設計 : 具高度相關之商品應陳列在同一鄰近區域

台灣最大實體書店 (續) 針對目標 2,使用主力客群 (Clustering) 模組,自動尋找出會員資料中與商品特性關聯性最高的欄位 發現: 旅遊 類商品與會員資料中的 性別 與 年齡 欄位有高關聯性 顯著區間:(Female, 30~40) 財經 類商品與會員資料中的 職業 與 收入水準 欄位有高關聯性 顯著區間:(Employee, 500K~800K yearly) 意義: Direct Marketing : 可以將促銷商品 DM 只寄給最具關聯性的潛在客戶。可大幅降低行銷成本,並提高回應率與成交率

台灣最大實體書店 (續) 專案導入: 效果: 該專案執行期間, 由總經理指派專案小組負責 部份商品為少量多樣,如建築類、藝術類、國外進口書等 原先每年寄送的會員 DM 約 100 萬封,每封 DM 成本約 10-12 元,但平均回應率低於2 % 效果: 經過資料分析後,了解客群分布,可進行精準的目標行銷 每年寄送的會員 DM 降為 20 萬封,回應率提高為 8-10 % 可以更準確地開發新客群,以及進行存書控制

用資料庫進行目標行銷 增加曝光 引起興趣 強化需求 造成行動 Conversion Funnel 常見方法:加大開口(提高曝光)      增加準度(目標行銷)      避免過程中跳出(高轉換率)

案例 (2) 亞洲最大線上紅利集點網站 亞洲區最大的線上紅利集點網站,在四個區域 (九個國家)中會員超過350萬人,專門經營線上紅利集點 分析目標 目標 1 : 找出具有高紅利點數的會員族群之特徵 目標 2 : 找出會員資料庫中的主要顯著客群 樣本資料 350萬筆大中國區會員資料庫 每位會員共有25個資料欄位,包括 ID, account, points, email, sex, nickname, birthday, join_date, job 等

線上紅利集點網站 (續) 針對目標 1 ,使用關聯分析 (Association) ,自動尋找出與點數欄位最相關之欄位組合 發現 意義 紅利點數多的會員,與地址Address欄位高度相關 住在台北Taipei的人點數最多 (Confidence 63.5%) 意義 台北市的會員對於該線上紅利集點網站之大中國區 盈收貢獻度最高,最有價值 所有的會員經營與行銷預算,應集中火力於台北地區的會員

線上紅利集點網站 (續) 針對目標 2 ,使用群集分析 (Clustering),自動尋找出特徵最集中的主要會員群集 發現:該網站350萬會員中,有三個最顯著的主力客群 Group 1(55.78%): 年輕人、學生、男性 Group 2(19.53%): 科技業、技術人員、工程師、或經理、男性、半數住在台北 Group 3(7.05%): 科技及服務業、行政助理、秘書、服務人員、女性、半數住在台北 意義 上述族群已超過 80%。可對這三個市場區隔,做行銷預算分配,進行更精準的直效行銷,將可大幅節省行銷成本,並提高效果。

案例 (3) 其它 某大電信業者 : 電信預警系統 依 Peak alarm (突來的不正常之尖峰用量) 與 Region alarm (連續罕用受話號碼或付費號碼) 判斷盜打行為 依系統警示信號預測系統雍塞機率,以預先調配郊區之基地台來支援,達成整體系統使用率之最佳化

在各產業的應用 – 以金融保險業為例

企業擁有許多的資料庫‥‥ 保戶基本資料 保單基本資料 保單繳費紀錄 要保人:郵遞區號、生日、性別、婚姻等 被保人:郵遞區號、生日、性別、婚姻等 保單基本資料 險種代碼、保險金額、繳費方式、紅利發放方式等 保單繳費紀錄 保單年度、保單狀態、年度化保費、實繳保費等 業務單位、銷售管道、卡別等

企業的問題是‥‥ 這些存在 Excel 或 Access 的現成資料,能否協助 如何可以達到上述目標? 了解既有客戶行為模式,做好客戶關係管理 開發新客戶 進行決策支援,選定目標市場與行銷策略 降低行銷成本,提高回應率與成交率 提高營收和顧客滿意度 如何可以達到上述目標?

1. 尋找保戶購買保單的決策模型

保戶保單資料庫 要保人性別 要保人年齡 要保人婚姻狀況 要保人子女數 紅利發放方式 險種 各險種之購買因素?

自動選擇最佳分支條件,產生決策樹

分析:建立客戶決策模型 1. 自動嘗試所有欄位排列組合 2. 找出關鍵決策因素之優先順序 3. 自動切割適當值 4. 自動排除無關因素

應用:預測客戶行為 1. 依客戶狀況提出適當建議 透過Web或Mobile 2. 準確地大量開發新客戶 精準目標與擴散 3. 「科學化」降低行銷成本,提高成交率和營收

2. 尋找最熱門之保戶保單的關聯性

分析目標 分析結果 目標 1 : 保戶基本資料、和購買保單間的熱門關聯性 目標 2 : 購買保單之間的關聯性 (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) (新鴻運終身壽險) → (防癌保本終身健康保險)

如何應用熱門關聯性? (新鴻運終身壽險, 300-400萬) → (要保人: M, 被保人: F ) (萬福增額終身壽險) → (要保人: F, 30-40歲, 被保人: F, 0-10歲 ) 直效行銷 : 可以將商品資訊只推銷給最具關聯性的潛在客戶。可 大幅降低行銷成本,並提高回應率與成交率 (新鴻運終身壽險) → (防癌保本終身健康保險) 搭售、聯合促銷、交叉行銷:可以寄送另一商品之促銷訊息予只 購買單一商品之會員,創造新的營收

3. 尋找主力保戶客群之特徵

盈收貢獻度問題 想了解購買三張保單,或累計投保1000萬以上的 主力客群特徵?

如何應用主力客群特徵分析? 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 52% : 要保人 : 男, 30-40歲, 年收 100-120萬 28% : 要保人 : 已婚, 子女數 > 2 13% : 女性, 台北市, 研究所以上 1. 行銷預算之分配依據 2. 依特徵不同訂作行銷策略 3. 喚醒具同樣特徵但貢獻度仍不高的潛力客群 符合  (要保人 : 男, 30-40歲, 年收 100-120萬) 但目前 (購買三張保單或累計投保1000萬以下) 之族群

在各產業的應用 – 以零售通路為例

目標 1 聯合促銷 STEP 1 : 目標 STEP 2 : 分析 收集購買紀錄中,分析商品之間的的關聯性 可依不同的資料尺度進行分析   部門 - 生鮮食品, 摩登服飾, 3C家電等 專櫃 - 佳麗寶, 資生堂, 美爽爽等   品群 - 化妝品, 皮件, 女鞋等 商品 - 水亮唇膏 分析結果 中型免洗盤 → 竹籤 and 竹筷 信心指數 74.3 % 車用吸塵器 → 車用垃圾筒 信心指數 42.8 % 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 信心指數 65.2 %

目標 1 聯合促銷 (續) STEP 3 : 執行 所代表的意義 商品特性關聯 : 車用吸塵器 → 車用垃圾筒 (清潔車內) 消費目的關聯 : 中型免洗盤 → 竹籤 and 竹筷 (郊遊烤肉) 消費族群關聯 : 佳麗寶 PN 化妝品 → 華歌爾無肩帶胸罩 (年輕流行) 擬定促銷策略 搭售 聯合促銷:主題特賣會、折價券 亦可做為商場動線設計,以及進補貨之參考

目標 2 直效行銷 STEP 1 : 目標 STEP 2 : 分析 分析結果 從會員資料與購買紀錄中,找出會員與商品之間的的關聯性 從會員資料與購買紀錄中,尋找會員的連續購買行為 STEP 2 : 分析 分析結果 果汁飲料類 → 女性, 25-35歲, 台北縣市 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲 信心指數 74.1 % 愛狗座墊 → 項圈 →狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 %

目標 2 直效行銷 (續) STEP 3 : 執行 擬定直效行銷策略 針對目標族群寄送行銷訊息 → 成本更低,回應率更高 果汁飲料類 → 女性, 25-35歲 信心指數 63.2 % 汽車百貨 → 男性, 25-40歲, 台北縣市 信心指數 74.1 % 預測消費者購買行為,刺激消費 → 增加營收 愛狗座墊 → 項圈 → 狗食 or 除蚤劑 信心指數 59.8 % 變速電鑽 → 捲尺 → 多功能噴漆 信心指數 45.3 % 辨識目標族群,加以行銷擴散 建立「愛狗族群張貼可愛照片」,或「DIY家居族群分享經驗」

問題討論