Download presentation
Presentation is loading. Please wait.
1
Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路):
Tamkang University Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) 1022DM08 MI4 Wed, 6,7 (13:10-15:00) (B216) Min-Yuh Day 戴敏育 Assistant Professor 專任助理教授 Dept. of Information Management, Tamkang University 淡江大學 資訊管理學系 tku.edu.tw/myday/
2
課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 1 103/02/19 資料探勘導論 (Introduction to Data Mining) 2 103/02/26 關連分析 (Association Analysis) 3 103/03/05 分類與預測 (Classification and Prediction) 4 103/03/12 分群分析 (Cluster Analysis) 5 103/03/19 個案分析與實作一 (SAS EM 分群分析): Case Study 1 (Cluster Analysis – K-Means using SAS EM) 6 103/03/26 個案分析與實作二 (SAS EM 關連分析): Case Study 2 (Association Analysis using SAS EM) 7 103/04/02 教學行政觀摩日 (Off-campus study) 8 103/04/09 個案分析與實作三 (SAS EM 決策樹、模型評估): Case Study 3 (Decision Tree, Model Evaluation using SAS EM)
3
課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 9 103/04/16 期中報告 (Midterm Project Presentation) /04/23 期中考試週 (Midterm Exam) /04/30 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) /05/07 文字探勘與網頁探勘 (Text and Web Mining) /05/14 海量資料分析 (Big Data Analytics) /05/21 期末報告 (Final Project Presentation) /05/28 畢業考試週 (Final Exam)
4
銀行信用風險預測模型 (Credit Risk Case Study)
Source: SAS Enterprise Miner Course Notes, 2014, SAS
5
案例情境 銀行試圖使用一個內部的次級信貸產品來建立一個更新的風險模型。此風險模型將結合其他因素以作為未來的信貸決策。
樣本資料來源選自原始信貸產品申請者資料。根據徵信機構資料所描述這些申請者(在申請時)的相關記錄,以做為該貸款的最終處置決定(還清或壞賬)。 資料筆數: 總共3000筆,其中500筆為壞賬 (bad debt) 資料變數欄位:30
6
資料欄位說明 VarID Name Model Role Measurement Level Description 1
BanruptcyInd Input Binary Bankruptcy Indicator 2 CollectCnt Interval Number Collections 3 DerogCnt Number Public Derogatories 4 ID Nominal Applicant ID 5 InqCnt06 Number Inquiries 6 Months 6 InqFinanceCnt24 Number Finance Inquires 24 Months 7 InqTimeLast Time Since Last Inquiry 8 TARGET Target 1=Bad Debt, 0=Paid-off 9 TL50UtilCnt Number Trade Lines 50 pct Utilized 10 TL75UtilCnt Number Trade Lines 75 pct Utilized 11 TLBadCnt24 Number Trade Lines Bad Debt 24 Months 12 TLBadDerogCnt Number Bad Dept plus Public Derogatories 13 TLBalHCPct Percent Trade Line Balance to High Credit 14 TLCnt Total Open Trade Lines 15 TLCnt03 Number Trade Lines Opened 3 Months 16 TLCnt12 Number Trade Lines Opened 12 Months 17 TLCnt24 Number Trade Lines Opened 24 Months 18 TLDel3060Cnt24 Number Trades 30 or 60 Days 24 Months 19 TLDel60Cnt Number Trades Currently 60 Days or Worse 20 TLDel60Cnt24 Number Trades 60 Days or Worse 24 Months 21 TLDel60CntAll Number Trade Lines 60 Days or Worse Ever 22 TLDel90Cnt24 Number Trade Lines Months 23 TLMaxSum Total High Credit All Trade Lines 24 TLOpen24Pct Percent Trade Lines Open 24 Months 25 TLOpenPct Percent Trade Lines Open 26 TLSatCnt Number Trade Lines Currently Satisfactory 27 TLSatPct Percent Satisfactory to Total Trade Lines 28 TLSum Total Balance All Trade Lines 29 TLTimeFirst Time Since First Trade Line 30 TLTimeLast Time Since Last Trade Line Source: SAS Enterprise Miner Course Notes, 2014, SAS
7
Credit 欄位資料說明 Target: 1=Bad Debt (壞賬), 0=Paid-off (還清)
Delinquent (逾期還款;違約) Derogatory (名譽人格毀損) (法院查封、欠稅) Trade Lines (信用帳戶) (信用卡、車貸、房貸) Personal Loan (私人貸款) Revolving Credit Account (循環信用帳戶) Collections Count: 催收次數 Inquires Count: 查詢次數
8
預測模型實機演練 分析目的 依據可能影響違約之風險因子,利用決策樹等分類演算方法建立信貸客戶之風險預測模型。 演練重點: • 資料瀏覽
• 資料瀏覽 • 遺失值處理 • 衍生變數產出 • 資料集分割(訓練、驗證、測試資料集) • 預測模型變數篩選 • 決策樹預測模型建置 • 決策樹模型參數設定與模型解讀 • 跨模型評估方法 Source: SAS Enterprise Miner Course Notes, 2014, SAS
9
個案分析與實作四 (SAS EM 迴歸分析、類神經網路):
Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM)
10
SAS Enterprise Miner (SAS EM) Case Study
Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程
11
Download EM_Data.zip (SAS EM Datasets)
12
Upzip EM_Data.zip to C:\DATA\EM_Data
13
VMware Horizon View Client softcloud.tku.edu.tw SAS Enterprise Miner
14
SAS Enterprise Guide (SAS EG)
15
SAS EG New Project
16
SAS EG Open Data
17
SAS EG Open credit.sas7bdat
18
credit.sas7bdat
19
credit.sas7bdat
20
credit.sas7bdat
21
credit.sas7bdat
22
credit.sas7bdat
23
credit.sas7bdat
24
credit.sas7bdat
25
credit.sas7bdat
26
credit.sas7bdat
27
credit.sas7bdat 篩選和排序
28
credit.sas7bdat 篩選和排序
29
credit.sas7bdat 篩選和排序
30
credit.sas7bdat 篩選和排序
31
credit.sas7bdat 篩選和排序
32
credit.sas7bdat 篩選和排序
33
credit.sas7bdat 篩選和排序
34
credit.sas7bdat 篩選和排序
35
credit.sas7bdat 篩選和排序
36
credit.sas7bdat 篩選和排序
37
credit.sas7bdat 篩選和排序
38
SAS Enterprise Miner 12.1 (SAS EM)
39
SAS EM 資料匯入4步驟 Step 1. 新增專案 (New Project)
Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram)
40
Step 1. 新增專案 (New Project)
41
Step 1. 新增專案 (New Project)
42
Step 1. 新增專案 (New Project)
43
SAS Enterprise Miner (EM_Project3)
44
Step 2. 新增資料館 (New / Library)
45
Step 2. 新增資料館 (New / Library)
46
Step 2. 新增資料館 (New / Library)
47
Step 2. 新增資料館 (New / Library)
48
Step 2. 新增資料館 (New / Library)
49
Step 3. 建立資料來源 (Create Data Source)
50
Step 3. 建立資料來源 (Create Data Source)
51
Step 3. 建立資料來源 (Create Data Source)
52
Step 3. 建立資料來源 (Create Data Source)
53
Step 3. 建立資料來源 (Create Data Source)
DatabaseName.TableName LibraryName.TableName EM_LIB.CREDIT
54
Step 3. 建立資料來源 (Create Data Source)
55
Step 3. 建立資料來源 (Create Data Source)
56
Step 3. 建立資料來源 (Create Data Source)
資料型態 (層級) 修改: 將 BanruptcyInd 資料型態改為 Binary 將 TARGET 資料型態改為 Binary
57
Step 3. 建立資料來源 (Create Data Source)
58
Step 3. 建立資料來源 (Create Data Source)
59
Step 3. 建立資料來源 (Create Data Source)
60
Step 3. 建立資料來源 (Create Data Source)
61
Step 3. 建立資料來源 (Create Data Source)
Data Source Attribute Role: Raw
62
Step 3. 建立資料來源 (Create Data Source)
63
Step 3. 建立資料來源 (Create Data Source)
64
Step 4. 建立流程圖 (Create Diagram)
65
Step 4. 建立流程圖 (Create Diagram)
66
Step 4. 建立流程圖 (Create Diagram)
67
SAS Enterprise Miner (SAS EM) Case Study
Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程
68
案例情境模型流程
69
樣本資料匯入 (Sample)
70
樣本資料匯入 (Sample) EM_LIB.CREDIT
71
勘查-StatExplore (摘要統計)
72
勘查-StatExplore (摘要統計)
73
勘查-StatExplore (摘要統計)
74
勘查-StatExplore (摘要統計)
75
勘查-StatExplore (摘要統計)
76
勘查-StatExplore (摘要統計)
77
勘查-StatExplore (摘要統計)
78
修改-設算(Impute)-遺失值處理 遺失值處理 Impute
79
設定 間隔變數/預設輸入方法樹 (Tree)
設算(Impute)-遺失值處理 設定 間隔變數/預設輸入方法樹 (Tree) 遺失值處理 設定 間隔變數/預設輸入方法 將預設 平均值 改為 樹 (Tree) 補值
80
修改-設算(Impute)-遺失值處理
81
修改-設算(Impute)-遺失值處理
82
修改-設算(Impute)-遺失值處理
83
修改-設算(Impute)-遺失值處理 結果
84
設算(Impute)-匯出的資料-瀏覽
85
設算(Impute)-匯出的資料-瀏覽
86
設算(Impute)-匯出的資料-瀏覽 遺失值處理結果
87
修改-變數轉換(Transform Variable) : 產生衍生變數
88
修改-變數轉換(Transform Variable) : 產生衍生變數
89
修改-變數轉換(Transform Variable) : 產生衍生變數
90
修改-變數轉換(Transform Variable) : 產生衍生變數
91
修改-變數轉換(Transform Variable) : 產生衍生變數
92
修改-變數轉換(Transform Variable) : 產生衍生變數
93
修改-變數轉換(Transform Variable) : 產生衍生變數
94
修改-變數轉換(Transform Variable) : 產生衍生變數
95
修改-變數轉換(Transform Variable) : 產生衍生變數
96
修改-變數轉換(Transform Variable) : 產生衍生變數
TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
97
修改-變數轉換(Transform Variable) : 產生衍生變數
TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
98
修改-變數轉換(Transform Variable) : 產生衍生變數
TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
99
修改-變數轉換(Transform Variable) : 產生衍生變數
TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt
100
修改-變數轉換(Transform Variable) : 產生衍生變數
101
修改-變數轉換(Transform Variable) : 產生衍生變數
102
樣本-資料分區 (Data Partition)
103
樣本-資料分區 (Data Partition)
104
樣本-資料分區 (Data Partition)
105
樣本-資料分區 (Data Partition)
106
樣本-資料分區 (Data Partition)
107
樣本-資料分區 (Data Partition)
108
樣本-資料分區 (Data Partition)
109
樣本-資料分區 (Data Partition) 結果
110
模型-決策樹 (Decision Tree)
111
模型-迴歸 (Regression)
112
模型-迴歸 (Regression) 迴歸模型建置參數設定 選取模型:逐步法 進行變數篩選
113
模型-迴歸 (Regression)
114
模型-迴歸 (Regression)
115
模型-迴歸 (Regression)
116
模型-迴歸 (Regression)
117
迴歸 (Regression) 結果
118
類神經網路 (Neural Network)
119
類神經網路 (Neural Network)
120
類神經網路 (Neural Network)
121
類神經網路 (Neural Network)
122
類神經網路 (Neural Network)
123
類神經網路 (Neural Network)
124
類神經網路 (Neural Network)
125
類神經網路 (Neural Network) 結果
126
評估-模型比較 (Model Comparison)
127
評估-模型比較 (Model Comparison)
128
評估-模型比較 (Model Comparison)
129
評估-模型比較 (Model Comparison)
130
跨模型比較(Model Comparison) 結果
131
跨模型比較(Model Comparison) 結果:ROC
132
跨模型比較(Model Comparison) 結果
133
跨模型比較(Model Comparison) 結果
134
跨模型比較(Model Comparison) 結果
135
Reference Jim Georges, Jeff Thompson and Chip Wells, Applied Analytics Using SAS Enterprise Miner, SAS, 2010 SAS Enterprise Miner Course Notes, 2014, SAS SAS Enterprise Miner Training Course, 2014, SAS SAS Enterprise Guide Training Course, 2014, SAS
Similar presentations