Download presentation
Presentation is loading. Please wait.
Published byÊÊΔιομήδης Ζάχος Modified 6年之前
1
SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities
AsiaMiner Senior Consultant
2
Agenda SSAS Data Mining 2008新功能介紹 建置『決策樹』及『貝氏機率分類』資料採礦模型 檢視採礦精確度圖表
<Your Title> 2018/11/21
3
SSAS Data Mining 2008新功能介紹
4
SSAS Data Mining 2008全新功能 演算法 採礦結構 模型驗證 Office 2007資料採礦增益集
新增ARIMA時間序列演算法 採礦結構 定義訓練組與測試組 設定區隔模型 模型驗證 交叉驗證(Cross-validation) Office 2007資料採礦增益集
5
完整與強大的演算法 決策樹 群集 時間序列 關聯規則 貝氏機率分類 類神經網路 羅吉斯迴歸 線性迴歸 時序群集
6
完整與強大的演算法 分類 區隔 推估 關聯 預測 關聯規則 群集 決策樹 線性迴歸 羅吉斯迴歸 貝氏機率分類 類神經網路 時序群集 時間序列
7
時間序列演算法 SQL Server 2005:ARTXP SQL Server 2008:ARIMA 擅長短期數值變動預測
擅長長期趨勢預測 提供ARTXP+ARIMA混合模式(PREDICTION_SMOOTHING)
8
模型穩定性挑戰
9
模型預測的結果
10
Over-fitting 過度複雜的模型反而會記憶住訓練資料的特定結構 建模成效很好,但是預測時反而效果較差
使用訓練與測試資料集 降低模型之複雜程度 減少使用變數 同樣的預測力下,越簡單的規則就是越好的模型
11
使用測試資料集 Training 使用訓練資料集建立預測模型 Testing 使用測試資料集來避免模型對於訓練資料集產生記憶效應
12
如何產生測試集 SSAS 2005:利用SSIS的「百分比取樣」以及「資料列取樣」節點自行抽樣
13
區隔模型建模策略 使用單一模型不一定可以獲取最大之建模成效 區隔模型可以專注於特定樣本,以找出更精細的規則內容
14
如何設定區隔模型 SSAS 2008:採礦結構中利用設定模型篩選器建立出區隔模型的資料集
15
模型驗證 驗證模式 效度 信度 增益圖 與 收益圖 散佈圖 分類矩陣
交叉驗證(Cross-validation) (SQL 2008 Enterprise Edition)
16
交叉驗證 設定樣本折疊數(fold) 各樣本折疊產生相近評估數字,表示模型信度高 5-fold cross-validation
1,2,3,4建模,5驗證 2,3,4,5建模,1驗證 1,3,4,5建模,2驗證 1,2,4,5建模,3驗證 1,2,3,5建模,4驗證
17
Office 2007 Data Mining Add-ins
Office Excel 2007資料表分析工具 Office Excel 2007資料採礦用戶端 Visio 2007 資料採礦流程範本
18
Office Excel 2007資料表分析工具 分析關鍵影響因數(Analyze Key Influencers)
偵測類別目錄(Detect Category) 根據範例填滿(Fill from Example) 預測(Forecast) 反白顯示例外狀況(Highlight Exceptions) 狀況分析(Scenario Analysis)
19
Office Excel 2007資料表分析工具 SQL Server 2008中新增 購物籃分析(Basket Analysis )
預測計算器(Predict Calculator)
20
建置『決策樹』及『貝氏機率分類』資料採礦模型
21
分類 輸出變數為類別變數 可產出分類結果及可能機率 流失客戶預測、購買回應預測、信用評等都是典型的分類問題 SQL 2005畫面
22
決策樹(Decision Tree) 透過樹狀規則呈現分類準則 找出最佳分岔點,使得資料的亂度最低 根據每個分岔的分布來決定預測機率
23
貝氏機率分類(Naïve Bayes) 計算最容易的演算法(條件機率) 只能輸入類別變數
假設變數間為獨立互不影響,因此使用時須謹慎分析變數間的相依性
24
離散化動作 將連續變數切割為類別變數 可指定DiscretizationBucketCount以選擇切割數量 Automatic
EqualAreas Clusters 可指定DiscretizationBucketCount以選擇切割數量
25
微軟決策樹演算法參數 COMPLEXITY_PENALTY MINIMUM_SUPPORT SCORE_METHOD
SPLIT_METHOD 二元分岔 (1), 多元分岔 (2), or 演算法自行判斷 (3).
26
微軟貝氏機率分類演算法參數 MAXIMUM_STATES
MINIMUM_DEPANDENCY_PROBABILITY:介於0~1,數值越大,模型使用變數會越減少
27
示範步驟 建立資料來源 建立資料來源檢視 新增採礦結構 選擇演算法 選擇案例, 巢狀資料表 選擇輸入輸出變數 修改資料型別
分割訓練組與測試組資料集 命名 部署與處理 檢視模型
28
檢視採礦精確度圖表
29
如何評估資料採礦模型 增益圖 分類矩陣 交叉驗證
30
增益圖(Lift Chart) 根據機率將名單由高購買可能至低排序 橫軸為名單百分比 縱軸為累積購買人數占全體購買人數之百分比
45度斜直線代表隨機狀態 根據前40%名單進行銷售就有總體80%之銷售效果
31
Lift Chart 能夠透過比較多個模型的Lift Chart來找出最佳模型 在預算有限時,Lift Chart能夠告訴我們名單執行的效果
32
Classification Matrix
3R (Response Rate, Recall, Range Reduce) 回應率(Response Rate) ↑ --稀有事件出現的比率 反查(Recall) ↑ --預測稀有事件時,遺漏稀有事件的狀況 名單縮減(Range Reduce) ↓ --將稀有事件範圍縮小的程度
33
從分類矩陣看起… 橫軸為預測結果,縱軸為實際結果
原始購買回應率為( )/( )=49.4% 經過資料採礦模型: 回應率=6961/( )=73.6% 反查= 6961/( )=76.22% 名單縮減= ( )/ ( )=51.2%
34
交叉驗證 (Cross-validation)
設定樣本折疊數(fold) 各樣本折疊產生相近評估數字,表示模型信度高
35
Q&A
Similar presentations