商業智慧與資料探勘
資料探勘的基本觀念 企業的焦點已從以往的資料整理與蒐集,轉變成如何有效的利用資料庫來進行資訊的獲取。 資料探勘就是放棄以往透過人類分析師主觀解讀的方式,而讓資料、數字自己說話,來呈現出最真實的一面
資料探勘的演進 1800年統計學的萌芽 1970年代專家系統及樣式識別(PR)理論的提出及系統實作 1980年歸納法則式的機器學習理論及關聯式資料庫的發展 1990年管理資訊系統(MIS)、及決策支援系統(DSS)陸續受到重視,專家學者開始探討如何有效地從資料庫中進行知識萃取(KDD) 1995年資料探勘名詞的出現
資料探勘的成功案例 IBM公司的Advanced Scout系統,自動分析NBA敵我球隊及球員的數據,以協助教練作出最佳化的戰術組合 加州理工學院噴氣推進實驗室與天文學家合作開發的SKICAT系統,成功幫助天文科學家發現遙遠的星體 芬蘭赫爾辛基大學計算機科學系研發的TASA,則可預測網路通信中的異常現象等等
資料探勘的程序 一.決定企業探勘資料的目的 二.相關領域知識的瞭解 三.資料收集與整合 四.使用適當的資料探勘技術 五.結果分析 六.知識應用
資料探勘的前置步驟 形成資料倉儲(Data Warehousing) 資料選取 資料清理(cleaning) 資料精簡和轉換
資料探勘的技術 1.資料方塊(Data Cube) 2.分類分析(Classification) 3.群集分析(Clustering Analysis) 4.聯結(關連)分析(Association Rule Analysis) 5.序列樣式相關分析(Sequential Pattern Analysis) 6.鏈結分析(Link Analysis) 7.時間序列相似性分析(Time Series Similarity Analysis)
企業問題 企業策略 資料探勘任務 資料探勘技術 維繫客戶關係避免客戶流失 穩定流動性高的客戶 產品創新 定義/預測流動性高的客戶 交叉行銷 新產品與市場開發 產品合售 分類分析 群集分析 聯結分析 次序相關分析 資料探勘技術
資料方塊(一) 表 14-1 客戶代號 負債狀況 信用歷史紀錄 抵押品 月薪 風險程度 1 高 壞 無 2萬以下 2 未知 2-4萬 3 低 中等 4 5 超過4萬 6 適當 7 8 9 好 10 11 12 13 14
資料方塊(二) 風險 負債 抵押品 顧客人數 高 適當 無 4 低 2 中等 1 與範例對應之一維資料方塊
資料方塊(三)
Data Cube (資料方塊法) 資料方塊法的一般概念為具體化一些經常被要求的高成本計算 尤其是計數(count)、總計(sum)、求平均數(average)、取最大值(max)等函數 將具體化後的景觀儲存在一個資料方塊,可供決策支援、知識發現及其他應用做參考
分類分析(Classification) 資訊含量: ex: an honest coin =1 (bit) Heads showing with 75% =1.531 Expected Information:
使用月薪收入作為最上層辨識屬性,則 C1={1,4,7,11}, C2={2,3,12,14} = 0.564 gain(income) = I (Table)-E(income) = 0.967 gain(credit history) = 0.266 gain(debt) = 0.581 gain(collateral) = 0.756
3.群集分析 (K-MEANS ALGORITHM) 1.任意選擇k個樣本資料,作為一開始k群集的中心點,一般稱為種子。 2.對任一輸入資料,皆計算與此k個中心點的距離,並將此資料點指定到最近中心點的群集中,直到分派完畢。 3.計算每一群集新的中心點(此平均值就不一定剛好對應到特定輸入資料點)。 4.重新根據最短距離,指派資料到適當群集。 5.如果重新分派群集的結果都沒變動,代表群集分析結束;否則重新執行第3步驟。
4.聯結分析(Association Rules) 範例 交易代號 交易項目 1 柳橙汁,碳酸飲料,清潔用品 2 牛奶,柳橙汁,清潔用品 3 柳橙汁,洗衣精,碳酸飲料 4 碳酸飲料,底片 5 碳酸飲料,洋芋片
聯結分析 Rule X→Y 滿足X∩Y=Ø 1.X和Y的所有交易項目的集合,必須出現在至少S%全部交易中…minimum support 2.在所有包含X之交易中,至少有C%包含Y的交易…minimum confidence
聯結分析演算法(一) 1.計算出所有1-itemset的支持度,並找出1-itemsets的支持率大於或等於最小支持率的集合(稱之為large 1-itemsets)若large 1-itemsets為空集合,則停止執行 2.結合所有large 1-itemsets中的項目,形成多個候選的2-itemset ,同樣地找出2-itemset的支持率大於或等於最小支持率的集合(稱之為large 2-itemsets)若large 2-itemsets為空集合,則停止執行
3.對於large 2-itemsets中每一個2-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大於或等於最小信賴度的聯結法則 4.結合large 2-itemsets中的項目,形成多個候選的3-itemset ,若候選的3-itemset之任一個2-itemset子集合沒有出現在large 2-itemsets中,則刪除此候選的3-itemset 對於留下之後選的3-itemset ,找出3-itemset的支持率大於或等於最小支持率的集合(稱之為large 3-itemsets)若large 3-itemsets為空集合,則停止執行
5.對於large 3-itemsets中的每一個3-itemset ,列出所有可能的聯結法則,並且選擇其信賴度大或等於最小信賴度的聯結法則 6.重複步驟4和5 ,產生large k-itemsets(k>3)與大於或等於最小信賴度的聯結法則,直到large k-itemsets為空集合為止
1-itemset(S%=30%) ╳ 1-itemset 支持率 Large 1-itemset 柳橙汁 60% ˇ 碳酸飲料 80% 清潔用品 40% 牛奶 20% ╳ 洗衣精 底片 洋芋片
2-itemset 2-itemset 支持率 Large 2-itemset 柳橙汁,碳酸飲料 40% ˇ 柳橙汁,清潔用品 碳酸飲料,清潔用品 20% ╳ 1.柳橙汁 → 碳酸飲料 c=66.67 % 2.碳酸飲料 → 柳橙汁 c=50 % 3.柳橙汁 → 清潔用品 c=66.67 % 4.清潔用品 → 柳橙汁 c=100 % * Large 3-itemset is empty
5.序列樣式相關分析 聯結分析以單一交易為單位 序列樣式相關分析將同一顧客所有交易視為一群有次序性之交易,並找出不同交易間交易項目之關聯性
顧客交易資料庫 顧客代號 顧客交易次序(Sequence) 1 <(A)(B)> 2 <(C,D)(A)(E,F,G)(H)(I,J)> 3 <(A,K,G)> 4 <(A)(E,G)(B)(H)(H,L)(J)> 5 <(B)(H)(J)>
範例資料 (A) →1 <1,2> <1,(3,4,5),6,7> <1,4> 支持率≧35% (A) →1 80% (B) →2 40% (E) →3 60% (G) →4 (E,G) →5 (H) →6 (J) →7 顧客 代號表示 1 <1,2> 2 <1,(3,4,5),6,7> 3 <1,4> 4 <1,(3,4,5),2,6,6,7> 5 <2,6,7>
次序相關分析(一) L2 40% 利用large k-sequence 來產生large(k+1) sequence =7 ╳ 6= 42 ,其中支持率≧35%計有 <1,2> <2,5> <3,5> <4,5> <5,7> <1,3> <2,6> <3,7> <4,7> <1,4> <2,7> <1,5> <1,6> <1,7> L2 40%
次序相關分析(二) 再從其中選擇二個前(k-1)sequence相同之k sequence結合成(K+1)sequence 且任一子k sequence 並且出現在large set ,則(k+1)sequence不能成立
次序相關分析(三) <1 , 2 , 5> <1 , 2 , 7> <1 , 3 , 5> <1 , 3 , 7> <1 , 4 , 5> <1 , 4 , 7> <1 , 5 , 7> <2 , 5 , 7> <3 , 5 , 7> <4 , 5 , 7> L3 40%
次序相關分析(四) L4 40% <1 , 2 , 5, 7> <1 , 3 , 5, 7> <1 , 4 , 5, 7> L4 40%
次序相關分析之結果確認 最大化確定 1.聯集所有large set L2 U L3 U L4 2.還原編號 3.從最大長度開始,針對每個K sequence,刪除其子次序 4.反覆上步驟,直到k=2為止 最後結果只剩 <1,4,5,7> 即 <(30) (40 70) (80) (100)> 及<1,6> 即 <(30) (90)>