SPSS Modeler資料探勘實務基礎 資料探勘與Modeler使用介紹 資料分類-C5.0和CR&T 模型 資料集群-K-means和模型評估 4 2 3 1 資料關聯-Apriori和Sequence
3.資料關聯-Apriori和Sequence 關聯範例一:購物產品關聯分析 關聯範例二:訓練課程需求預測 關聯範例四:網頁瀏覽行為分析 4 2 3 1 關聯範例三:維修案例的次序分析
節點【Apriori】檔案 shopping.txt 786 records 15 fields 資料關聯範例 一 節點【Apriori】檔案 shopping.txt 786 records 15 fields
關聯法則基本概念 在資料探勘的領域之中,關聯性法則(association rule)是最常被使用的方法。關聯性法則在於找出資料庫中的資料間彼此的相關聯性。 在關聯性法則之使用中,Apriori是最為著名且廣泛運用的演算法。最早是由Agrawal & Srikant 等兩位學者於1994年首先提出。 if前項antecedent(s) then後項consequent(s)
購物產品關聯分析 shopping.txt的欄位計有15項,產品分為10個類別分別是Ready made、Frozen Food、Alcohol 、 Fresh Vegetables、 Milk、 Bakery goods 、 Fresh meat、 Toiletries、 Snacks、Tinned Goods,有買資料值為1,沒買則資料值為0 基本資料包括GENDER 、 AGE、 MARITAL、 CHILDREN、WORKING ( Currently employed?)
【變數檔案】節點
【類型】節點
欄位的角色設定 【輸入】表示允許資料進入Apriori模型節點作分析,此項資料僅會在關聯規則的前項中出現。
【Apriori】節點
關聯模型注意事項 建模時可以設定支援度、信心度等建模的細節,當門檻值過高而無法生成模型時,使用者須適度調整門檻值 執行後產生關聯規則的模型,可以查看詳細的規則內容。排序的規則有支援度(Support)、信賴度(Confidence) 、規則支援% (Rule Support)、後項(Consequent)、提昇(Lift)以及可部署性(Deployability)等方式, 使用者可依需求選擇
執行後的關聯規則4個
顯示更多的準則
名詞解釋 以第一個關聯規則為例說明如下: 後項– Bakery goods 前項– Milk和Frozen Food 全部總共786筆資料 買Milk和Frozen Food的人是85筆 買Bakery goods的人是337筆 買Milk和Frozen Food而且買Bakery goods的人是71筆 買Milk和Frozen Food但不買Bakery goods的人是14筆 後項– Bakery goods 前項– Milk和Frozen Food 實例– 85,即符合前項的筆數
名詞解釋 支援度–10.814 = 85/786,是指購買前項產品的客戶佔全部客戶的比例 信賴度 - 83.529 = 71/85,是指購買前項產品的客戶中也買後項產品的比例 規則支援%(即支援度x信賴度)–9.033 = 10.814% x 83.529% 或= 71 / 786,指購買前項產品也買後項產品的客戶佔全部客戶的比例 提昇–1.948 = (71/85)/ (337/786)或 = 83.529% / 42.875%,指購買後項產品佔購買前項產品的比例除以購買後項產品佔全部客戶的比例 可部署性–1.781 = 14/786,指購買前項產品但不買後項產品的人佔全部客戶的比例
降低最小規則信賴度80%75%
產生目標Alcohol的規則組節點
規則組節點Alcohol產生的欄位 可分析符合某規則的客戶基本資料,3個規則條件不適用時,信心值為0.5,3個規則條件全符合時,信心值為(0.776+0.752+0.76)/3
節點【Apriori】檔案 UKtraining.txt 2136 records 26 fields 資料關聯範例 二 節點【Apriori】檔案 UKtraining.txt 2136 records 26 fields
【變數檔案】節點
設定欄位角色(三種基礎課程)
設最小支援度1% 最小信賴度50%
節點【Sequence】檔案 Telrepair.txt 750 cases 5915 records 3 fields 資料關聯範例 三 節點【Sequence】檔案 Telrepair.txt 750 cases 5915 records 3 fields
次序分析 次序(Sequence)分析的重點在於資料中必須存在先後順序的關係(例如時間) 目前次序分析有兩種方式的,一種是只考量時間的先後順序,僅著重時間的順序作資料關聯的分析,另一種則是考量時間的區段,也就是週期性發生的類型,重點在於時間區段內的變化 次序分析可以提共我們針對客戶客製化行銷的預測
次序分析的名詞解釋 前項 後項 實例 支援度 信賴度 規則支援% 48 15.0 64.0 9.6 Base & Regression Models Advanced Models PASW Modeler 48 15.0 64.0 9.6 實例–48,和Apriori不同,是指符合前項且符合後項的筆數 支援度–15.0=75/500,是指符合前項的客戶佔全部客戶的比例 信賴度 – 64.0= 48/75,是指符合前項且符合後項的客戶佔符合前項客戶的比例 規則支援%– 9.6= 48/500,指符合前項且符合後項的客戶佔全部客戶的比例
維修案例檔案說明 檔案Telrepair.txt包括750個維修案例,共有 5915紀錄,3個欄位分別是ID、index1和stage 診斷開始以代碼90表示(但不完全是),成功完成修理以代碼210表示,若問題無法成功解決,則以代碼299表示 FailTelrepair.txt則包括以代碼299結束的失敗案例
【變數檔案】節點
【類型】節點
【表格】節點
【序列】節點
【序列】節點的default值
執行後的關聯規則
不同的排序準則 (成功率92%=690/750)
重複修理( 22.133% = 166/750個id)
練習:失敗案例 FailTelrepair.txt
節點【Sequence】檔案 weblog.txt 912 ID 3000 records 3 fields 資料關聯範例四 節點【Sequence】檔案 weblog.txt 912 ID 3000 records 3 fields
【變數檔案】節點
【類型】節點
【表格】節點
【序列】節點
執行後的關聯規則1個
降低最小規則支援度20%1%
信賴度100%時支援度等於規則支援度
序列節點產生的3個預測欄位
產生某選定規則的超級節點
序列規則超級節點的選項
超級節點增加的欄位