商業智慧與資料探勘.

Slides:



Advertisements
Similar presentations
企業入口網站(EIP)/ 應用系統(ERP, SCM, CRM)
Advertisements

MATLAB 程式設計 時間量測 清大資工系 多媒體資訊檢索實驗室.
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
附中科學班 招生說明會 多元附中 第一選擇.
行銷研究 單元三 次級資料的蒐集.
Some Knowledge of Machine Learning(1)
休閒二乙4A1B0030 陳唯玲 休閒二乙4A1B0020 吳嘉雯 休閒二乙4A1B0040 徐巧恩 指導老師:柯玲玫
高三语文复习之 融贯千载,悠悠成语.
CH3 關聯規則 授課老師:簡禎富 講座教授 簡禎富、許嘉裕©2014 著作權所有.
樣本空間與事件 餘事件:不在A中的樣本所構成的事件,即A′.
课标教材下教研工作的 实践与思考 山东临沂市教育科学研究中心 郭允远.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
第四章 資金成本.
計算機概論 蘇木春 中央大學資工系.
資訊管理 第九章 資料採礦.
Advanced Topics in Data Mining: Sequential Patterns
第零章 統計學概論 0.1 統計學的定義 0.2 敘述統計學與推論統計學 0.3 測量尺度 0.4 資料、資訊與因果關係 ©2009 陳欣得
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1.
Using EXCEL for ANOVA.
Chapter 17 投資決策經濟分析.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
第五章 關聯式資料庫的理論基礎.
電子商務基本概念 電子商務的定義 1-1 電子商務的特性 1-2 電子商務的演進 1-3.
第 9 章 基本的資料探勘、線上分析處理、資訊呈現.
資料探勘-案例期末報告 SQL Server 2008 Analysis Service
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
SQL Stored Procedure SQL 預存程序.
数据挖掘: 概念和技术 — Chapter 6 — ©张晓辉 复旦大学 (国际)数据库研究中心
(Circular Linked Lists)
Quiz6 繳交期限: 12/14(四) 23:59前.
OpenID與WordPress使用說明
第二章 SPSS的使用 2.1 啟動SPSS系統 2.2 結束SPSS系統 2.3 資料分析之相關檔案 2.4 如何使用SPSS軟體.
視覺式體操動作辨識系統 Vision-based Gymnastics Motion Recognition System 學生:顏羽君
管理資訊系統導論 資訊系統的定義與概念.
CH03 資訊管理的智慧觀點:技術篇.
大數據與我 4A 陳駿榜.
指導老師: 王思文 行銷二A 第二組 黃新強 黃秀菁 楊麗馨
TB-054A  周天穎 編著 儒林圖書公司 發行.
常見的巨量資料分析與應用 楊立偉教授 台大工管系暨商研所 2018.
15.5 最大值和最小值 的問題 附加例題 9 附加例題 10 © 文達出版 (香港 )有限公司.
網頁資料知多少? 事 實 ? 謠言?.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
智 慧 型 環 境 系 統 實 驗 室 生態工程 環境評估 決策分析 人工智慧 資訊系統 永續發展
電腦概論考題分析 佛學資訊組 碩一 張榮顯.
MiRanda Java Interface v1.0的使用方法
Database Management Exercise 1
師大 KSP 操作手冊.
SQL語法教學 2015/10/15 John.
黃影雯副教授講授 E_Mail Address:
商品交易資料庫 顧客上網買商品 如何紀錄客戶資料? 如何紀錄商品資料? 如何紀錄交易資料? 如何處理交易後的所有『後處理』程序?
資料表示方法 資料儲存單位.
花王集團.
資料擷取與監控應用實務.
Quiz1 繳交期限: 9/28(四).
Identifying your company’s real intelligence needs
非負矩陣分解法介紹 報告者:李建德.
4-1 變數與函數 第4章 一次函數及其圖形.
商業智慧實務 Practices of Business Intelligence
企業家如何創新? Q 你還記得,熊彼得所說的「企業家」為何意涵? 你還記得,熊彼得所說的「企業家」為何意涵?
第一章 電子商務簡介 第一篇 電子商務概論篇.
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
10303: How Many Trees? ★★☆☆☆ 題組:Contest Archive with Online Judge
Chapter 4 Multi-Threads (多執行緒).
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
第二节 偏 导 数 一、 偏导数概念及其计算 二 、高阶偏导数.
InputStreamReader Console Scanner
Presentation transcript:

商業智慧與資料探勘

資料探勘的基本觀念 企業的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料庫來進行資訊的獲取。 資料探勘就是放棄以往透過人類分析師主觀解讀的方式,而讓資料、數字自己說話,來呈現出最真實的一面

資料探勘的演進 1800年統計學的萌芽 1970年代專家系統及樣式識別(PR)理論的提出及系統實作 1980年歸納法則式的機器學習理論及關聯式資料庫的發展 1990年管理資訊系統(MIS)、及決策支援系統(DSS)陸續受到重視,專家學者開始探討如何有效地從資料庫中進行知識萃取(KDD) 1995年資料探勘名詞的出現

資料探勘的成功案例 IBM公司的Advanced Scout系統,自動分析NBA敵我球隊及球員的數據,以協助教練作出最佳化的戰術組合 加州理工學院噴氣推進實驗室與天文學家合作開發的SKICAT系統,成功幫助天文科學家發現遙遠的星體 芬蘭赫爾辛基大學計算機科學系研發的TASA,則可預測網路通信中的異常現象等等

資料探勘的程序 一.決定企業探勘資料的目的 二.相關領域知識的瞭解 三.資料收集與整合 四.使用適當的資料探勘技術 五.結果分析 六.知識應用

資料探勘的前置步驟 形成資料倉儲(Data Warehousing) 資料選取 資料清理(cleaning) 資料精簡和轉換

資料探勘的技術 1.資料方塊(Data Cube) 2.分類分析(Classification) 3.群集分析(Clustering Analysis) 4.聯結(關連)分析(Association Rule Analysis) 5.序列樣式相關分析(Sequential Pattern Analysis) 6.鏈結分析(Link Analysis) 7.時間序列相似性分析(Time Series Similarity Analysis)

企業問題 企業策略 資料探勘任務 資料探勘技術 維繫客戶關係避免客戶流失 穩定流動性高的客戶 產品創新 定義/預測流動性高的客戶 交叉行銷 新產品與市場開發 產品合售 分類分析 群集分析 聯結分析 次序相關分析 資料探勘技術

資料方塊(一) 表 14-1 客戶代號 負債狀況 信用歷史紀錄 抵押品 月薪 風險程度 1 高 壞 無 2萬以下 2 未知 2-4萬 3 低 中等 4 5 超過4萬 6 適當 7 8 9 好 10 11 12 13 14

資料方塊(二) 風險 負債 抵押品 顧客人數 高 適當 無 4 低 2 中等 1 與範例對應之一維資料方塊

資料方塊(三)

Data Cube (資料方塊法) 資料方塊法的一般概念為具體化一些經常被要求的高成本計算 尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等函數 將具體化後的景觀儲存在一個資料方塊,可供決策支援、知識發現及其他應用做參考

分類分析(Classification) 資訊含量: ex: an honest coin =1 (bit) Heads showing with 75% =1.531 Expected Information:

使用月薪收入作為最上層辨識屬性,則 C1={1,4,7,11}, C2={2,3,12,14} = 0.564 gain(income) = I (Table)-E(income) = 0.967 gain(credit history) = 0.266 gain(debt) = 0.581 gain(collateral) = 0.756

3.群集分析 (K-MEANS ALGORITHM) 1.任意選擇k個樣本資料,作為一開始k群集的中心點,一般稱為種子。 2.對任一輸入資料,皆計算與此k個中心點的距離,並將此資料點指定到最近中心點的群集中,直到分派完畢。 3.計算每一群集新的中心點(此平均值就不一定剛好對應到特定輸入資料點)。 4.重新根據最短距離,指派資料到適當群集。 5.如果重新分派群集的結果都沒變動,代表群集分析結束;否則重新執行第3步驟。

4.聯結分析(Association Rules) 範例 交易代號 交易項目 1 柳橙汁,碳酸飲料,清潔用品 2 牛奶,柳橙汁,清潔用品 3 柳橙汁,洗衣精,碳酸飲料 4 碳酸飲料,底片 5 碳酸飲料,洋芋片

聯結分析 Rule X→Y 滿足X∩Y=Ø 1.X和Y的所有交易項目的集合,必須出現在至少S%全部交易中…minimum support 2.在所有包含X之交易中,至少有C%包含Y的交易…minimum confidence

聯結分析演算法(一) 1.計算出所有1-itemset的支持度,並找出1-itemsets的支持率大於或等於最小支持率的集合(稱之為large 1-itemsets)若large 1-itemsets為空集合,則停止執行 2.結合所有large 1-itemsets中的項目,形成多個候選的2-itemset ,同樣地找出2-itemset的支持率大於或等於最小支持率的集合(稱之為large 2-itemsets)若large 2-itemsets為空集合,則停止執行

3.對於large 2-itemsets中每一個2-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大於或等於最小信賴度的聯結法則 4.結合large 2-itemsets中的項目,形成多個候選的3-itemset ,若候選的3-itemset之任一個2-itemset子集合沒有出現在large 2-itemsets中,則刪除此候選的3-itemset 對於留下之後選的3-itemset ,找出3-itemset的支持率大於或等於最小支持率的集合(稱之為large 3-itemsets)若large 3-itemsets為空集合,則停止執行

5.對於large 3-itemsets中的每一個3-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大或等於最小信賴度的聯結法則 6.重複步驟4和5 ,產生large k-itemsets(k>3)與大於或等於最小信賴度的聯結法則,直到large k-itemsets為空集合為止

1-itemset(S%=30%) ╳ 1-itemset 支持率 Large 1-itemset 柳橙汁 60% ˇ 碳酸飲料 80% 清潔用品 40% 牛奶 20% ╳ 洗衣精 底片 洋芋片

2-itemset 2-itemset 支持率 Large 2-itemset 柳橙汁,碳酸飲料 40% ˇ 柳橙汁,清潔用品 碳酸飲料,清潔用品 20% ╳ 1.柳橙汁 → 碳酸飲料 c=66.67 % 2.碳酸飲料 → 柳橙汁 c=50 % 3.柳橙汁 → 清潔用品 c=66.67 % 4.清潔用品 → 柳橙汁 c=100 % * Large 3-itemset is empty

5.序列樣式相關分析 聯結分析以單一交易為單位 序列樣式相關分析將同一顧客所有交易視為一群有次序性之交易,並找出不同交易間交易項目之關聯性

顧客交易資料庫 顧客代號 顧客交易次序(Sequence) 1 <(A)(B)> 2 <(C,D)(A)(E,F,G)(H)(I,J)> 3 <(A,K,G)> 4 <(A)(E,G)(B)(H)(H,L)(J)> 5 <(B)(H)(J)>

範例資料 (A) →1 <1,2> <1,(3,4,5),6,7> <1,4> 支持率≧35% (A) →1 80% (B) →2 40% (E) →3 60% (G) →4 (E,G) →5 (H) →6 (J) →7 顧客 代號表示 1 <1,2> 2 <1,(3,4,5),6,7> 3 <1,4> 4 <1,(3,4,5),2,6,6,7> 5 <2,6,7>

次序相關分析(一) L2 40% 利用large k-sequence 來產生large(k+1) sequence =7 ╳ 6= 42 ,其中支持率≧35%計有 <1,2> <2,5> <3,5> <4,5> <5,7> <1,3> <2,6> <3,7> <4,7> <1,4> <2,7> <1,5> <1,6> <1,7> L2 40%

次序相關分析(二) 再從其中選擇二個前(k-1)sequence相同之k sequence結合成(K+1)sequence 且任一子k sequence 並且出現在large set ,則(k+1)sequence不能成立

次序相關分析(三) <1 , 2 , 5> <1 , 2 , 7> <1 , 3 , 5> <1 , 3 , 7> <1 , 4 , 5> <1 , 4 , 7> <1 , 5 , 7> <2 , 5 , 7> <3 , 5 , 7> <4 , 5 , 7> L3 40%

次序相關分析(四) L4 40% <1 , 2 , 5, 7> <1 , 3 , 5, 7> <1 , 4 , 5, 7> L4 40%

次序相關分析之結果確認 最大化確定 1.聯集所有large set L2 U L3 U L4 2.還原編號 3.從最大長度開始,針對每個K sequence,刪除其子次序 4.反覆上步驟,直到k=2為止 最後結果只剩 <1,4,5,7> 即 <(30) (40 70) (80) (100)> 及<1,6> 即 <(30) (90)>