Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路):

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

Shan University 商用微積分 ( 一 ) 詹傑仲.
陳春賢 老師 長庚大學 資管系 報告人 : ( 研究方向、成果與計畫 ) 資料探勘與生醫資訊相關研究 ( 研究方向、成果與計畫 )
类别资料分析 Categorical Data Analysis 王德育 (T. Y
第1章 统计学的基本概念 什么是统计学 基本概念.
METAEDGE Corporation Taiwan
中国《大数据时代,广告公司业务模式重构》培训会 Big data era, open a new business model
古緯詩(PHD; 香港中文大學社會學系兼任教授)
應用統計學 授課大綱 – 暑期班 By: Dr. Tsung-Nan Tsai.
「聚焦學習」 小班教學﹕理念與實踐 羅鄧艷文博士 (Brenda)
新竹教育大學 數理教育研究所 蘇宏仁 中華民國 100 年 7 月 27 日 於竹市環境教育輔導小組
教學大綱設計 師資培育中心 林明煌.
Case Study for Information Management 資訊管理個案
人際溝通 Interpersonal Communication
Public Finance 财政学 (第十四章).
資訊管理 第三章 數位化企業.
大數據行銷研究 Big Data Marketing Research
Introduction to incoPat 4.0
計算機概論 蘇木春 中央大學資工系.
資訊管理 第九章 資料採礦.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2014 Fall 1.
Supplement Data Mining 工具介紹 楊立偉教授 台灣大學工管系 2015 Fall 1.
第二章 資訊管理的應用系統.
应用SAS/EM进行数据挖掘 赛仕软件研究所(上海)有限公司.
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Data Mining 工具介紹 (Weka+JDBC)
Special Topics in Social Media Services 社會媒體服務專題
巨量資料分析與應用 (1) 楊立偉教授 台大工管系暨商研所 2014 Fall.
Data Mining 工具介紹 (Weka/R + ODBC)
Endnote書目管理軟體-初階.
Rural Poverty Reduction in China: Methodology of Poverty Monitoring and Main Results 中国农村贫困: 最新结果与监测方法  XIAN ZUDE 鲜祖德.
The Issue of Information Security Management 資安管理專題
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
Instructor:Po-Yu Kuo 教師:郭柏佑
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
Tamkang University Data Mining 資料探勘
Data Mining 第八組 B 萬佳育 B 葉書蘋.
VISP+MS 国际高校访问学生 及统计理学硕士项目
CH03 資訊管理的智慧觀點:技術篇.
可能受益的商业活动 客户保留 目标营销 欺诈检测 购物篮分析 客户细分 客户忠诚度 信用打分 信用风险评估 营销组合管理和评估 盈利能力分析
國立東華大學試題 系所:資訊管理學系 科目:資料庫管理 第1頁/共4頁
物联网数据处理 第一讲 数据处理基本概念 刘进军 QQ:
Case Study for Information Management 資訊管理個案
面山近海-臺東.
生物統計 1 課程簡介 (Introduction)
UEE3504: Introduction to Communication Systems
SAS校園資料採礦競賽 IMTKU 淡江資管隊 指導老師:戴敏育 博士(Dr. Min-Yuh Day) 隊長: 杜駿(Chun Tu)
電子商務安全 Secure Electronic Commerce
MyiLibrary® ‘Search & View’ Website Training
資訊安全概論 Introduction to Information Security
Dept. of Applied Chemical
Course 4 分類與預測 Classification and Prediction
人際溝通 Interpersonal Communication
第十章 線上行銷研究.
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
期末考.
chapter5員工教育訓練 第一節 教育訓練之意義重要性及方法 第二節 企業大學蔚為風尚 第三節 教育訓練計畫四大程序與對員工學習原則
Case Study for Information Management 資訊管理個案
資訊數位服務 Information Service
人際溝通 Interpersonal Communication
SQL語法教學 2015/10/15 John.
数数据的基本操作 电子工业出版社.
MyiLibrary® ‘Search & View’ Website Training
Logistic回归 Logistic regression 研究生《医学统计学》.
群聚分析操作介紹 -以SOM和K-means為例
第六課 (1) 股市分析 - K線圖的繪製與應用 (2) 規劃求解(3) 分析藍本
商業智慧實務 Practices of Business Intelligence
淡江大學資訊管理系 戴敏育 Min-Yuh Day
Case Study for Information Management 資訊管理個案
Develop and Build Drives by Visual C++ IDE
Presentation transcript:

Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Tamkang University Data Mining 資料探勘 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) 1022DM08 MI4 Wed, 6,7 (13:10-15:00) (B216) Min-Yuh Day 戴敏育 Assistant Professor 專任助理教授 Dept. of Information Management, Tamkang University 淡江大學 資訊管理學系 http://mail. tku.edu.tw/myday/ 2014-04-30

課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 1 103/02/19 資料探勘導論 (Introduction to Data Mining) 2 103/02/26 關連分析 (Association Analysis) 3 103/03/05 分類與預測 (Classification and Prediction) 4 103/03/12 分群分析 (Cluster Analysis) 5 103/03/19 個案分析與實作一 (SAS EM 分群分析): Case Study 1 (Cluster Analysis – K-Means using SAS EM) 6 103/03/26 個案分析與實作二 (SAS EM 關連分析): Case Study 2 (Association Analysis using SAS EM) 7 103/04/02 教學行政觀摩日 (Off-campus study) 8 103/04/09 個案分析與實作三 (SAS EM 決策樹、模型評估): Case Study 3 (Decision Tree, Model Evaluation using SAS EM)

課程大綱 (Syllabus) 週次 (Week) 日期 (Date) 內容 (Subject/Topics) 9 103/04/16 期中報告 (Midterm Project Presentation) 10 103/04/23 期中考試週 (Midterm Exam) 11 103/04/30 個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM) 12 103/05/07 文字探勘與網頁探勘 (Text and Web Mining) 13 103/05/14 海量資料分析 (Big Data Analytics) 14 103/05/21 期末報告 (Final Project Presentation) 15 103/05/28 畢業考試週 (Final Exam)

銀行信用風險預測模型 (Credit Risk Case Study) Source: SAS Enterprise Miner Course Notes, 2014, SAS

案例情境 銀行試圖使用一個內部的次級信貸產品來建立一個更新的風險模型。此風險模型將結合其他因素以作為未來的信貸決策。 樣本資料來源選自原始信貸產品申請者資料。根據徵信機構資料所描述這些申請者(在申請時)的相關記錄,以做為該貸款的最終處置決定(還清或壞賬)。 資料筆數: 總共3000筆,其中500筆為壞賬 (bad debt) 資料變數欄位:30

資料欄位說明 VarID Name Model Role Measurement Level Description 1 BanruptcyInd Input Binary Bankruptcy Indicator 2 CollectCnt Interval Number Collections 3 DerogCnt Number Public Derogatories 4 ID Nominal Applicant ID 5 InqCnt06 Number Inquiries 6 Months 6 InqFinanceCnt24 Number Finance Inquires 24 Months 7 InqTimeLast Time Since Last Inquiry 8 TARGET Target 1=Bad Debt, 0=Paid-off 9 TL50UtilCnt Number Trade Lines 50 pct Utilized 10 TL75UtilCnt Number Trade Lines 75 pct Utilized 11 TLBadCnt24 Number Trade Lines Bad Debt 24 Months 12 TLBadDerogCnt Number Bad Dept plus Public Derogatories 13 TLBalHCPct Percent Trade Line Balance to High Credit 14 TLCnt Total Open Trade Lines 15 TLCnt03 Number Trade Lines Opened 3 Months 16 TLCnt12 Number Trade Lines Opened 12 Months 17 TLCnt24 Number Trade Lines Opened 24 Months 18 TLDel3060Cnt24 Number Trades 30 or 60 Days 24 Months 19 TLDel60Cnt Number Trades Currently 60 Days or Worse 20 TLDel60Cnt24 Number Trades 60 Days or Worse 24 Months 21 TLDel60CntAll Number Trade Lines 60 Days or Worse Ever 22 TLDel90Cnt24 Number Trade Lines 90+ 24 Months 23 TLMaxSum Total High Credit All Trade Lines 24 TLOpen24Pct Percent Trade Lines Open 24 Months 25 TLOpenPct Percent Trade Lines Open 26 TLSatCnt Number Trade Lines Currently Satisfactory 27 TLSatPct Percent Satisfactory to Total Trade Lines 28 TLSum Total Balance All Trade Lines 29 TLTimeFirst Time Since First Trade Line 30 TLTimeLast Time Since Last Trade Line Source: SAS Enterprise Miner Course Notes, 2014, SAS

Credit 欄位資料說明 Target: 1=Bad Debt (壞賬), 0=Paid-off (還清) Delinquent (逾期還款;違約) Derogatory (名譽人格毀損) (法院查封、欠稅) Trade Lines (信用帳戶) (信用卡、車貸、房貸) Personal Loan (私人貸款) Revolving Credit Account (循環信用帳戶) Collections Count: 催收次數 Inquires Count: 查詢次數

預測模型實機演練 分析目的 依據可能影響違約之風險因子,利用決策樹等分類演算方法建立信貸客戶之風險預測模型。 演練重點: • 資料瀏覽 • 資料瀏覽 • 遺失值處理 • 衍生變數產出 • 資料集分割(訓練、驗證、測試資料集) • 預測模型變數篩選 • 決策樹預測模型建置 • 決策樹模型參數設定與模型解讀 • 跨模型評估方法 Source: SAS Enterprise Miner Course Notes, 2014, SAS

個案分析與實作四 (SAS EM 迴歸分析、類神經網路): Case Study 4 (Regression Analysis, Artificial Neural Network using SAS EM)

SAS Enterprise Miner (SAS EM) Case Study Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程

Download EM_Data.zip (SAS EM Datasets) http://mail.tku.edu.tw/myday/teaching/1022/DM/Data/EM_Data.zip http://mail.tku.edu.tw/myday/teaching.htm

Upzip EM_Data.zip to C:\DATA\EM_Data

VMware Horizon View Client softcloud.tku.edu.tw SAS Enterprise Miner

SAS Enterprise Guide (SAS EG)

SAS EG New Project

SAS EG Open Data

SAS EG Open credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

credit.sas7bdat 篩選和排序

SAS Enterprise Miner 12.1 (SAS EM)

SAS EM 資料匯入4步驟 Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram)

Step 1. 新增專案 (New Project)

Step 1. 新增專案 (New Project)

Step 1. 新增專案 (New Project)

SAS Enterprise Miner (EM_Project3)

Step 2. 新增資料館 (New / Library)

Step 2. 新增資料館 (New / Library)

Step 2. 新增資料館 (New / Library)

Step 2. 新增資料館 (New / Library)

Step 2. 新增資料館 (New / Library)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source) DatabaseName.TableName LibraryName.TableName EM_LIB.CREDIT

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source) 資料型態 (層級) 修改: 將 BanruptcyInd 資料型態改為 Binary 將 TARGET 資料型態改為 Binary

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source) Data Source Attribute Role: Raw

Step 3. 建立資料來源 (Create Data Source)

Step 3. 建立資料來源 (Create Data Source)

Step 4. 建立流程圖 (Create Diagram)

Step 4. 建立流程圖 (Create Diagram)

Step 4. 建立流程圖 (Create Diagram)

SAS Enterprise Miner (SAS EM) Case Study Step 1. 新增專案 (New Project) Step 2. 新增資料館 (New / Library) Step 3. 建立資料來源 (Create Data Source) Step 4. 建立流程圖 (Create Diagram) SAS EM SEMMA 建模流程

案例情境模型流程

樣本資料匯入 (Sample)

樣本資料匯入 (Sample) EM_LIB.CREDIT

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

勘查-StatExplore (摘要統計)

修改-設算(Impute)-遺失值處理 遺失值處理 Impute

設定 間隔變數/預設輸入方法樹 (Tree) 設算(Impute)-遺失值處理 設定 間隔變數/預設輸入方法樹 (Tree) 遺失值處理 設定 間隔變數/預設輸入方法 將預設 平均值 改為 樹 (Tree) 補值

修改-設算(Impute)-遺失值處理

修改-設算(Impute)-遺失值處理

修改-設算(Impute)-遺失值處理

修改-設算(Impute)-遺失值處理 結果

設算(Impute)-匯出的資料-瀏覽

設算(Impute)-匯出的資料-瀏覽

設算(Impute)-匯出的資料-瀏覽 遺失值處理結果

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt

修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt

修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt

修改-變數轉換(Transform Variable) : 產生衍生變數 TL_Cycle = (TLTimeFirst - TLTimeLast) / IMP_TLCnt

修改-變數轉換(Transform Variable) : 產生衍生變數

修改-變數轉換(Transform Variable) : 產生衍生變數

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition)

樣本-資料分區 (Data Partition) 結果

模型-決策樹 (Decision Tree)

模型-迴歸 (Regression)

模型-迴歸 (Regression) 迴歸模型建置參數設定 選取模型:逐步法 進行變數篩選

模型-迴歸 (Regression)

模型-迴歸 (Regression)

模型-迴歸 (Regression)

模型-迴歸 (Regression)

迴歸 (Regression) 結果

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network)

類神經網路 (Neural Network) 結果

評估-模型比較 (Model Comparison)

評估-模型比較 (Model Comparison)

評估-模型比較 (Model Comparison)

評估-模型比較 (Model Comparison)

跨模型比較(Model Comparison) 結果

跨模型比較(Model Comparison) 結果:ROC

跨模型比較(Model Comparison) 結果

跨模型比較(Model Comparison) 結果

跨模型比較(Model Comparison) 結果

Reference Jim Georges, Jeff Thompson and Chip Wells, Applied Analytics Using SAS Enterprise Miner, SAS, 2010 SAS Enterprise Miner Course Notes, 2014, SAS SAS Enterprise Miner Training Course, 2014, SAS SAS Enterprise Guide Training Course, 2014, SAS