Download presentation
Presentation is loading. Please wait.
1
商業智慧與資料探勘
2
資料探勘的基本觀念 企業的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料庫來進行資訊的獲取。
資料探勘就是放棄以往透過人類分析師主觀解讀的方式,而讓資料、數字自己說話,來呈現出最真實的一面
3
資料探勘的演進 1800年統計學的萌芽 1970年代專家系統及樣式識別(PR)理論的提出及系統實作
1980年歸納法則式的機器學習理論及關聯式資料庫的發展 1990年管理資訊系統(MIS)、及決策支援系統(DSS)陸續受到重視,專家學者開始探討如何有效地從資料庫中進行知識萃取(KDD) 1995年資料探勘名詞的出現
4
資料探勘的成功案例 IBM公司的Advanced Scout系統,自動分析NBA敵我球隊及球員的數據,以協助教練作出最佳化的戰術組合
加州理工學院噴氣推進實驗室與天文學家合作開發的SKICAT系統,成功幫助天文科學家發現遙遠的星體 芬蘭赫爾辛基大學計算機科學系研發的TASA,則可預測網路通信中的異常現象等等
5
資料探勘的程序 一.決定企業探勘資料的目的 二.相關領域知識的瞭解 三.資料收集與整合 四.使用適當的資料探勘技術 五.結果分析
六.知識應用
6
資料探勘的前置步驟 形成資料倉儲(Data Warehousing) 資料選取 資料清理(cleaning) 資料精簡和轉換
7
資料探勘的技術 1.資料方塊(Data Cube) 2.分類分析(Classification)
3.群集分析(Clustering Analysis) 4.聯結(關連)分析(Association Rule Analysis) 5.序列樣式相關分析(Sequential Pattern Analysis) 6.鏈結分析(Link Analysis) 7.時間序列相似性分析(Time Series Similarity Analysis)
8
企業問題 企業策略 資料探勘任務 資料探勘技術 維繫客戶關係避免客戶流失 穩定流動性高的客戶 產品創新 定義/預測流動性高的客戶 交叉行銷
新產品與市場開發 產品合售 分類分析 群集分析 聯結分析 次序相關分析 資料探勘技術
9
資料方塊(一) 表 14-1 客戶代號 負債狀況 信用歷史紀錄 抵押品 月薪 風險程度 1 高 壞 無 2萬以下 2 未知 2-4萬 3 低
中等 4 5 超過4萬 6 適當 7 8 9 好 10 11 12 13 14
10
資料方塊(二) 風險 負債 抵押品 顧客人數 高 適當 無 4 低 2 中等 1 與範例對應之一維資料方塊
11
資料方塊(三)
12
Data Cube (資料方塊法) 資料方塊法的一般概念為具體化一些經常被要求的高成本計算
尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等函數 將具體化後的景觀儲存在一個資料方塊,可供決策支援、知識發現及其他應用做參考
13
分類分析(Classification)
資訊含量: ex: an honest coin =1 (bit) Heads showing with 75% =1.531 Expected Information:
15
使用月薪收入作為最上層辨識屬性,則 C1={1,4,7,11}, C2={2,3,12,14}
= 0.564 gain(income) = I (Table)-E(income) = 0.967 gain(credit history) = 0.266 gain(debt) = 0.581 gain(collateral) = 0.756
18
3.群集分析 (K-MEANS ALGORITHM)
1.任意選擇k個樣本資料,作為一開始k群集的中心點,一般稱為種子。 2.對任一輸入資料,皆計算與此k個中心點的距離,並將此資料點指定到最近中心點的群集中,直到分派完畢。 3.計算每一群集新的中心點(此平均值就不一定剛好對應到特定輸入資料點)。 4.重新根據最短距離,指派資料到適當群集。 5.如果重新分派群集的結果都沒變動,代表群集分析結束;否則重新執行第3步驟。
22
4.聯結分析(Association Rules)
範例 交易代號 交易項目 1 柳橙汁,碳酸飲料,清潔用品 2 牛奶,柳橙汁,清潔用品 3 柳橙汁,洗衣精,碳酸飲料 4 碳酸飲料,底片 5 碳酸飲料,洋芋片
23
聯結分析 Rule X→Y 滿足X∩Y=Ø 1.X和Y的所有交易項目的集合,必須出現在至少S%全部交易中…minimum support
2.在所有包含X之交易中,至少有C%包含Y的交易…minimum confidence
24
聯結分析演算法(一) 1.計算出所有1-itemset的支持度,並找出1-itemsets的支持率大於或等於最小支持率的集合(稱之為large 1-itemsets)若large 1-itemsets為空集合,則停止執行 2.結合所有large 1-itemsets中的項目,形成多個候選的2-itemset ,同樣地找出2-itemset的支持率大於或等於最小支持率的集合(稱之為large 2-itemsets)若large 2-itemsets為空集合,則停止執行
25
3.對於large 2-itemsets中每一個2-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大於或等於最小信賴度的聯結法則
4.結合large 2-itemsets中的項目,形成多個候選的3-itemset ,若候選的3-itemset之任一個2-itemset子集合沒有出現在large 2-itemsets中,則刪除此候選的3-itemset 對於留下之後選的3-itemset ,找出3-itemset的支持率大於或等於最小支持率的集合(稱之為large 3-itemsets)若large 3-itemsets為空集合,則停止執行
26
5.對於large 3-itemsets中的每一個3-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大或等於最小信賴度的聯結法則
6.重複步驟4和5 ,產生large k-itemsets(k>3)與大於或等於最小信賴度的聯結法則,直到large k-itemsets為空集合為止
27
1-itemset(S%=30%) ╳ 1-itemset 支持率 Large 1-itemset 柳橙汁 60% ˇ 碳酸飲料 80%
清潔用品 40% 牛奶 20% ╳ 洗衣精 底片 洋芋片
28
2-itemset 2-itemset 支持率 Large 2-itemset 柳橙汁,碳酸飲料 40% ˇ 柳橙汁,清潔用品
碳酸飲料,清潔用品 20% ╳ 1.柳橙汁 → 碳酸飲料 c=66.67 % 2.碳酸飲料 → 柳橙汁 c=50 % 3.柳橙汁 → 清潔用品 c=66.67 % 4.清潔用品 → 柳橙汁 c=100 % * Large 3-itemset is empty
29
5.序列樣式相關分析 聯結分析以單一交易為單位 序列樣式相關分析將同一顧客所有交易視為一群有次序性之交易,並找出不同交易間交易項目之關聯性
30
顧客交易資料庫 顧客代號 顧客交易次序(Sequence) 1 <(A)(B)> 2
<(C,D)(A)(E,F,G)(H)(I,J)> 3 <(A,K,G)> 4 <(A)(E,G)(B)(H)(H,L)(J)> 5 <(B)(H)(J)>
31
範例資料 (A) →1 <1,2> <1,(3,4,5),6,7> <1,4>
支持率≧35% (A) →1 80% (B) →2 40% (E) →3 60% (G) →4 (E,G) →5 (H) →6 (J) →7 顧客 代號表示 1 <1,2> 2 <1,(3,4,5),6,7> 3 <1,4> 4 <1,(3,4,5),2,6,6,7> 5 <2,6,7>
32
次序相關分析(一) L2 40% 利用large k-sequence 來產生large(k+1) sequence
=7 ╳ 6= 42 ,其中支持率≧35%計有 <1,2> <2,5> <3,5> <4,5> <5,7> <1,3> <2,6> <3,7> <4,7> <1,4> <2,7> <1,5> <1,6> <1,7> L2 40%
33
次序相關分析(二) 再從其中選擇二個前(k-1)sequence相同之k sequence結合成(K+1)sequence
且任一子k sequence 並且出現在large set ,則(k+1)sequence不能成立
34
次序相關分析(三) <1 , 2 , 5> <1 , 2 , 7>
<1 , 3 , 5> <1 , 3 , 7> <1 , 4 , 5> <1 , 4 , 7> <1 , 5 , 7> <2 , 5 , 7> <3 , 5 , 7> <4 , 5 , 7> L3 40%
35
次序相關分析(四) L4 40% <1 , 2 , 5, 7> <1 , 3 , 5, 7>
<1 , 4 , 5, 7> L4 40%
36
次序相關分析之結果確認 最大化確定 1.聯集所有large set L2 U L3 U L4 2.還原編號
3.從最大長度開始,針對每個K sequence,刪除其子次序 4.反覆上步驟,直到k=2為止 最後結果只剩 <1,4,5,7> 即 <(30) (40 70) (80) (100)> 及<1,6> 即 <(30) (90)>
Similar presentations