Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Tamkang University Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) 1022DM08 MI4 Wed, 6,7 (13:10-15:00) (B216) Min-Yuh Day 戴敏育 Assistant Professor 專任助理教授 Dept. of Information Management, Tamkang University 淡江大學 資訊管理學系 http://mail. tku.edu.tw/myday/ 2014-04-30
課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 1 103/02/19 資料探勘導論 (Introduction to Data Mining) 2 103/02/26 關連分析 (Association Analysis) 3 103/03/05 分類與預測 (Classification and Prediction) 4 103/03/12 分群分析 (Cluster Analysis) 5 103/03/19 個案分析與實作一 (SAS EM 分群分析): Case Study 1 (Cluster Analysis – K-Means using SAS EM) 6 103/03/26 個案分析與實作二 (SAS EM 關連分析): Case Study 2 (Association Analysis using SAS EM) 7 103/04/02 教學行政觀摩日 (Off-campus study) 8 103/04/09 個案分析與實作三 (SAS EM 決策樹、模型評估): Case Study 3 (Decision Tree, Model Evaluation using SAS EM)
課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 9 103/04/16 期中報告 (Midterm Project Presentation) 10 103/04/23 期中考試週 (Midterm Exam) 11 103/04/30 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) 12 103/05/07 文字探勘與網頁探勘 (Text and Web Mining) 13 103/05/14 海量資料分析 (Big Data Analytics) 14 103/05/21 期末報告 (Final Project Presentation) 15 103/05/28 畢業考試週 (Final Exam)
銀行信用風險預測模型 (Credit Risk Case Study) Source: SAS Enterprise Miner Course Notes, 2014, SAS
案例情境 銀行試圖使用一個內部的次級信貸產品來建立一個更新的風險模型。此風險模型將結合其他因素以作為未來的信貸決策。 樣本資料來源選自原始信貸產品申請者資料。根據徵信機構資料所描述這些申請者(在申請時)的相關記錄,以做為該貸款的最終處置決定(還清或壞賬)。 資料筆數: 總共3000筆,其中500筆為壞賬 (bad debt) 資料變數欄位:30
資料欄位說明 VarID Name Model Role Measurement Level Description 1 BanruptcyInd Input Binary Bankruptcy Indicator 2 CollectCnt Interval Number Collections 3 DerogCnt Number Public Derogatories 4 ID Nominal Applicant ID 5 InqCnt06 Number Inquiries 6 Months 6 InqFinanceCnt24 Number Finance Inquires 24 Months 7 InqTimeLast Time Since Last Inquiry 8 TARGET Target 1=Bad Debt, 0=Paid-off 9 TL50UtilCnt Number Trade Lines 50 pct Utilized 10 TL75UtilCnt Number Trade Lines 75 pct Utilized 11 TLBadCnt24 Number Trade Lines Bad Debt 24 Months 12 TLBadDerogCnt Number Bad Dept plus Public Derogatories 13 TLBalHCPct Percent Trade Line Balance to High Credit 14 TLCnt Total Open Trade Lines 15 TLCnt03 Number Trade Lines Opened 3 Months 16 TLCnt12 Number Trade Lines Opened 12 Months 17 TLCnt24 Number Trade Lines Opened 24 Months 18 TLDel3060Cnt24 Number Trades 30 or 60 Days 24 Months 19 TLDel60Cnt Number Trades Currently 60 Days or Worse 20 TLDel60Cnt24 Number Trades 60 Days or Worse 24 Months 21 TLDel60CntAll Number Trade Lines 60 Days or Worse Ever 22 TLDel90Cnt24 Number Trade Lines 90+ 24 Months 23 TLMaxSum Total High Credit All Trade Lines 24 TLOpen24Pct Percent Trade Lines Open 24 Months 25 TLOpenPct Percent Trade Lines Open 26 TLSatCnt Number Trade Lines Currently Satisfactory 27 TLSatPct Percent Satisfactory to Total Trade Lines 28 TLSum Total Balance All Trade Lines 29 TLTimeFirst Time Since First Trade Line 30 TLTimeLast Time Since Last Trade Line Source: SAS Enterprise Miner Course Notes, 2014, SAS
Credit 欄位資料說明 Target: 1=Bad Debt (壞賬), 0=Paid-off (還清) Delinquent (逾期還款;違約) Derogatory (名譽人格毀損) (法院查封、欠稅) Trade Lines (信用帳戶) (信用卡、車貸、房貸) Personal Loan (私人貸款) Revolving Credit Account (循環信用帳戶) Collections Count: 催收次數 Inquires Count: 查詢次數
預測模型實機演練 分析目的 依據可能影響違約之風險因子,利用決策樹等分類演算方法建立信貸客戶之風險預測模型。 演練重點: • 資料瀏覽 • 資料瀏覽 • 遺失值處理 • 衍生變數產出 • 資料集分割(訓練、驗證、測試資料集) • 預測模型變數篩選 • 決策樹預測模型建置 • 決策樹模型參數設定與模型解讀 • 跨模型評估方法 Source: SAS Enterprise Miner Course Notes, 2014, SAS
個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM)
SAS Enterprise Miner (SAS EM) Case Study Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程
Download EM_Data.zip (SAS EM Datasets) http://mail.tku.edu.tw/myday/teaching/1022/DM/Data/EM_Data.zip http://mail.tku.edu.tw/myday/teaching.htm
Upzip EM_Data.zip to C:\DATA\EM_Data
VMware Horizon View Client softcloud.tku.edu.tw SAS Enterprise Miner
SAS Enterprise Guide (SAS EG)
SAS EG New Project
SAS EG Open Data
SAS EG Open credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
credit.sas7bdat 篩選和排序
SAS Enterprise Miner 12.1 (SAS EM)
SAS EM 資料匯入4步驟 Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram)
Step 1. 新增專案 (New Project)
Step 1. 新增專案 (New Project)
Step 1. 新增專案 (New Project)
SAS Enterprise Miner (EM_Project3)
Step 2. 新增資料館 (New / Library)
Step 2. 新增資料館 (New / Library)
Step 2. 新增資料館 (New / Library)
Step 2. 新增資料館 (New / Library)
Step 2. 新增資料館 (New / Library)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source) DatabaseName.TableName LibraryName.TableName EM_LIB.CREDIT
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source) 資料型態 (層級) 修改: 將 BanruptcyInd 資料型態改為 Binary 將 TARGET 資料型態改為 Binary
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source) Data Source Attribute Role: Raw
Step 3. 建立資料來源 (Create Data Source)
Step 3. 建立資料來源 (Create Data Source)
Step 4. 建立流程圖 (Create Diagram)
Step 4. 建立流程圖 (Create Diagram)
Step 4. 建立流程圖 (Create Diagram)
SAS Enterprise Miner (SAS EM) Case Study Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程
案例情境模型流程
樣本資料匯入 (Sample)
樣本資料匯入 (Sample) EM_LIB.CREDIT
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
勘查-StatExplore (摘要統計)
修改-設算(Impute)-遺失值處理 遺失值處理 Impute
設定 間隔變數/預設輸入方法樹 (Tree) 設算(Impute)-遺失值處理 設定 間隔變數/預設輸入方法樹 (Tree) 遺失值處理 設定 間隔變數/預設輸入方法 將預設 平均值 改為 樹 (Tree) 補值
修改-設算(Impute)-遺失值處理
修改-設算(Impute)-遺失值處理
修改-設算(Impute)-遺失值處理
修改-設算(Impute)-遺失值處理 結果
設算(Impute)-匯出的資料-瀏覽
設算(Impute)-匯出的資料-瀏覽
設算(Impute)-匯出的資料-瀏覽 遺失值處理結果
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
修改-變數轉換(Transform Variable) : 產生衍生變數
修改-變數轉換(Transform Variable) : 產生衍生變數
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition)
樣本-資料分區 (Data Partition) 結果
模型-決策樹 (Decision Tree)
模型-迴歸 (Regression)
模型-迴歸 (Regression) 迴歸模型建置參數設定 選取模型:逐步法 進行變數篩選
模型-迴歸 (Regression)
模型-迴歸 (Regression)
模型-迴歸 (Regression)
模型-迴歸 (Regression)
迴歸 (Regression) 結果
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network)
類神經網路 (Neural Network) 結果
評估-模型比較 (Model Comparison)
評估-模型比較 (Model Comparison)
評估-模型比較 (Model Comparison)
評估-模型比較 (Model Comparison)
跨模型比較(Model Comparison) 結果
跨模型比較(Model Comparison) 結果:ROC
跨模型比較(Model Comparison) 結果
跨模型比較(Model Comparison) 結果
跨模型比較(Model Comparison) 結果
Reference Jim Georges, Jeff Thompson and Chip Wells, Applied Analytics Using SAS Enterprise Miner, SAS, 2010 SAS Enterprise Miner Course Notes, 2014, SAS SAS Enterprise Miner Training Course, 2014, SAS SAS Enterprise Guide Training Course, 2014, SAS