SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities

SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities
AsiaMiner Senior Consultant

Agenda SSAS Data Mining 2008新功能介紹建置『決策樹』及『貝氏機率分類』資料採礦模型檢視採礦精確度圖表
<Your Title> 2018/11/21

SSAS Data Mining 2008新功能介紹

SSAS Data Mining 2008全新功能演算法採礦結構模型驗證 Office 2007資料採礦增益集
新增ARIMA時間序列演算法採礦結構定義訓練組與測試組設定區隔模型模型驗證交叉驗證(Cross-validation) Office 2007資料採礦增益集

完整與強大的演算法決策樹群集時間序列關聯規則貝氏機率分類類神經網路羅吉斯迴歸線性迴歸時序群集

完整與強大的演算法分類區隔推估關聯預測關聯規則群集決策樹線性迴歸羅吉斯迴歸貝氏機率分類類神經網路時序群集時間序列

時間序列演算法 SQL Server 2005：ARTXP SQL Server 2008：ARIMA 擅長短期數值變動預測
擅長長期趨勢預測提供ARTXP+ARIMA混合模式(PREDICTION_SMOOTHING)

模型穩定性挑戰

模型預測的結果

Over-fitting 過度複雜的模型反而會記憶住訓練資料的特定結構建模成效很好，但是預測時反而效果較差
使用訓練與測試資料集降低模型之複雜程度減少使用變數同樣的預測力下，越簡單的規則就是越好的模型

使用測試資料集 Training 使用訓練資料集建立預測模型 Testing 使用測試資料集來避免模型對於訓練資料集產生記憶效應

如何產生測試集 SSAS 2005：利用SSIS的「百分比取樣」以及「資料列取樣」節點自行抽樣

區隔模型建模策略使用單一模型不一定可以獲取最大之建模成效區隔模型可以專注於特定樣本，以找出更精細的規則內容

如何設定區隔模型 SSAS 2008：採礦結構中利用設定模型篩選器建立出區隔模型的資料集

模型驗證驗證模式效度信度增益圖與收益圖散佈圖分類矩陣
交叉驗證(Cross-validation) (SQL 2008 Enterprise Edition)

交叉驗證設定樣本折疊數(fold) 各樣本折疊產生相近評估數字，表示模型信度高 5-fold cross-validation
1,2,3,4建模，5驗證 2,3,4,5建模，1驗證 1,3,4,5建模，2驗證 1,2,4,5建模，3驗證 1,2,3,5建模，4驗證

Office 2007 Data Mining Add-ins
Office Excel 2007資料表分析工具 Office Excel 2007資料採礦用戶端 Visio 2007 資料採礦流程範本

Office Excel 2007資料表分析工具分析關鍵影響因數(Analyze Key Influencers)
偵測類別目錄(Detect Category) 根據範例填滿(Fill from Example) 預測(Forecast) 反白顯示例外狀況(Highlight Exceptions) 狀況分析(Scenario Analysis)

Office Excel 2007資料表分析工具 SQL Server 2008中新增購物籃分析(Basket Analysis )
預測計算器(Predict Calculator)

建置『決策樹』及『貝氏機率分類』資料採礦模型

分類輸出變數為類別變數可產出分類結果及可能機率流失客戶預測、購買回應預測、信用評等都是典型的分類問題 SQL 2005畫面

決策樹(Decision Tree) 透過樹狀規則呈現分類準則找出最佳分岔點，使得資料的亂度最低根據每個分岔的分布來決定預測機率

貝氏機率分類(Naïve Bayes) 計算最容易的演算法(條件機率) 只能輸入類別變數
假設變數間為獨立互不影響，因此使用時須謹慎分析變數間的相依性

離散化動作將連續變數切割為類別變數可指定DiscretizationBucketCount以選擇切割數量 Automatic
EqualAreas Clusters 可指定DiscretizationBucketCount以選擇切割數量

微軟決策樹演算法參數 COMPLEXITY_PENALTY MINIMUM_SUPPORT SCORE_METHOD
SPLIT_METHOD 二元分岔 (1), 多元分岔 (2), or 演算法自行判斷 (3).

微軟貝氏機率分類演算法參數 MAXIMUM_STATES
MINIMUM_DEPANDENCY_PROBABILITY：介於0~1，數值越大，模型使用變數會越減少

示範步驟建立資料來源建立資料來源檢視新增採礦結構選擇演算法選擇案例, 巢狀資料表選擇輸入輸出變數修改資料型別
分割訓練組與測試組資料集命名部署與處理檢視模型

檢視採礦精確度圖表

如何評估資料採礦模型增益圖分類矩陣交叉驗證

增益圖(Lift Chart) 根據機率將名單由高購買可能至低排序橫軸為名單百分比縱軸為累積購買人數占全體購買人數之百分比
45度斜直線代表隨機狀態根據前40%名單進行銷售就有總體80%之銷售效果

Lift Chart 能夠透過比較多個模型的Lift Chart來找出最佳模型在預算有限時，Lift Chart能夠告訴我們名單執行的效果

Classification Matrix
3R (Response Rate, Recall, Range Reduce) 回應率(Response Rate) ↑ --稀有事件出現的比率反查(Recall) ↑ --預測稀有事件時，遺漏稀有事件的狀況名單縮減(Range Reduce) ↓ --將稀有事件範圍縮小的程度

從分類矩陣看起… 橫軸為預測結果，縱軸為實際結果
原始購買回應率為( )/( )=49.4% 經過資料採礦模型: 回應率=6961/( )=73.6% 反查= 6961/( )=76.22% 名單縮減= ( )/ ( )=51.2%

交叉驗證 (Cross-validation)
設定樣本折疊數(fold) 各樣本折疊產生相近評估數字，表示模型信度高

SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities

Similar presentations

Presentation on theme: "SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

SQL Server 2008 資料採礦： 資料採礦An Overview of Key Data Mining Capabilities

Similar presentations

Presentation on theme: "SQL Server 2008 資料採礦： 資料採礦An Overview of Key Data Mining Capabilities"— Presentation transcript:

Similar presentations

About project

反馈

SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities

Presentation on theme: "SQL Server 2008 資料採礦：資料採礦An Overview of Key Data Mining Capabilities"— Presentation transcript: