金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程

Slides:



Advertisements
Similar presentations
研究發展處 研究推動中心 說明大綱 科技部徵求辦法 申請流程 校內獎勵機制 常見問題 相關連結 線上系統操作說明 ( 學生 / 指導教授 )
Advertisements

【自我認知】 資料蒐集能力不佳 【產業 / 工作認知】 對自己的興趣與專長不了解 工作技能工作內容工作時間工作地點條件限制薪資福利.
月經異常的原因及警訊 組員: 陳少康、張康樂、許晉愷、何曄、方泠瑩、張 顓麟、蘇梓喬、溫鵬皓、林雅雯.
說明事項  大陸交換學習近況  大陸姐妹校介紹  申請資格和程序  研究生補助 大陸交換學習近況 2009 年秋首次進行,計有 6 校共 20 位學生來校交換學習。 來校交換生.
年終工作獎金 及考績獎金 法規與實務 苗栗縣政府人事處 副處長 陳 坤 榮 中華民國102年1月25日.
消失的吸管 隊名:吸管應該消失才隊.
助學工作說明會 及 教育訓練.
國立交通大學 應用數學系 歐拉 (Euler).
師資生修讀教育學程 重點提醒 師資培育暨就業輔導中心.
文書檔案組Q&A 崇右技術學院 文書檔案組 Q & A 總務處.
公職人員財產信託簡介 第一銀行信託處 編製.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
經分表聘用兼任助理流程 完成 新增/修改 經分表 計畫無聘任兼任助理(新增) 紙本送所屬單位審核 計畫聘任兼任助理(新增)
TIC 智慧城市与物联网创新创业大赛 齐 技术模式 创新,智慧城市 成真 梦 主办单位: 协办单位: 合作高校:
未婚懷孕:你想清楚了嗎 瑞芳國中 林碧欣.
國科會經費報銷說明 報告人:陳秀合 分 機: 年11月 12日(一).
實用技能學程答客問 Q&A 大明高中附設進修學校 教導處 編製.
畜牧類天然災害查報 及救助作業簡介 臺南市政府農業局畜產科 李東仁 臺南市政府農業局畜產科.
天府欧城“星光儿童乐园” ---项目计划书 此为机密文件。 天府欧城.
財團法人台北市任兆璋修女林美智老師教育基金會
100學年度719班 親師懇談.
云计算业务应用-数据挖掘.
社團資料製作 亞東技術學院課外組 岳擎天
道路、管線事故緊急應變處理課程.
財團法人台北市任兆璋修女林美智老師教育基金會
大 綱 國有財產之來源 國有財產之範圍 國有財產之種類 國有公用財產管理 使用原則 國有公用財產管理
花的構造- (資料參考--鄭元春 植物Q&A一書) 花瓣 花萼 雌蕊 雄蕊.
認識股票 認識股票.
年終工作獎金 及考績獎金 法規與實務 苗栗縣政府人事處 副處長 陳 坤 榮 中華民國100年12月20日.
103年度身心障礙福利機構評鑑 日間及住宿機構指標說明 ~會計及財務管理~
屏東縣政府對民間團體補助經費作業要點 & 簡易計畫書撰寫概要與核銷注意事項
--洲仔尾的鹼菜 與櫻桃鴨的結合-- 鴨賞的故事.
校園霸凌事件處理、申復流程暨狀況模擬 林華杉教官 此範本可作為群組設定中簡報訓練教材的起始檔案。 章節
戲水安全.
自我介绍 ——陈丽敏.
舌尖上的邵阳 Business And.
柯和平 研究员 深圳职业技术学院 教育技术与信息中心
外僑扣繳實務講習 1.
職場性騷擾相關法 律責任-以上司對 下屬性騷擾為例
主講人:曲軒 協理 就業情報資訊 日期:2003年5月8日
衛生筷,衛生嗎? 綠的關懷協會 常務理事 董雅坋.
高粱酒香-金門城.
讀報教育 報告者:施子慧 資料來源:徐瑞美、施子慧.
103年度 健康促進學校輔導與網站維護─ 「臺灣健康促進學校之網站特色介紹」 張子超 教授
传媒学院2013年度团委工作 总结分析报告
107年勞動基準法修法重點解析 高雄市政府勞工局.
國立中山大學管理學院 國際人才培育中心 大專人才培訓就業學程.
SQL Server 2008 資料採礦: 資料採礦An Overview of Key Data Mining Capabilities
開課單位作業流程及Q&A 開啟衛生署積分系統首頁 畫面如下頁.
精算假設品質的基本要求 精算假設應提出明確的假設數值,同時應提供實際經驗率資料以作為假設訂定之依據,且精算人員應說明實際經驗率與假設數值間的合理關係。 精算假設若由其他單位提供(例如:利率或投資報酬率假設由投資部門提供),精算人員仍應了解其假設的方法,並就其假設合理性及假設方法提出意見。 精算假設若與前一年相較有所變更時,精算人員應說明假設改變的原因,對於有改變的精算假設數值宜列對照表比較並說明。精算人員應評估假設的改變對財務影響是否顯著,若顯著則應提供量化數值以說明其影響程度。
國立豐原高級中學 104學年度家長代表大會 主持人:張健家會長 時間:104年10月3日(星期六)上午10時0分 地點:行政樓二樓會議室.
试乘试驾团购执行方案(模板) 单 位:经销商名称 时 间:
臺南市 107學年度 國中生志願選填試探與輔導知能研習
1.E化系統 之 專案登錄 核銷作業 2.常見退件原因 3.其他注意事項
國中志願選填試探與輔導知能研習 『學校適性輔導實務分享』 2015年12月1日(二) 分享者:蔡幸君.
醫療器材臨床試驗與IRB審查訓練課程 強化早期臨床試驗能量計畫 課程內容 時間:107年11月1日 (星期四) 下午2時至5時
消費者透過保險經紀人事務所購買保險之研究
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
2011年版大學學系探索量表測驗結果說明 輔導室 楊欣翰老師.
中小學教師科博館教學導覽教師研習工作坊 國立自然科學博物館 科學教育組 葉蓉樺博士.
101學年度繁星推薦校內甄選學生說明會 海山高中輔導處
数据挖掘管理系统规范说明 现状简介 强度挖掘(Intension Mining) I-MIN过程模型(Process Model)
我會看年曆.
培僑小學 成功父母學堂 常識科專題研習工作坊
104年度自我評鑑 學術單位內部評鑑工作研習會.
第10章 網路問卷調查.
訪談地點:高雄縣大社鄉便當店 組員:王佩儀 B 王紀璇 B 許乃心 A
高擴充高穩定高安全 企業級資料管理平台 Report Builder概論 錢曉明 資策會 資深講師 台灣微軟 資深講師.
教育部彈性薪資說明會 主辦單位:教育部 執行單位:彈性薪資專案辦公室 主 持 人:周麗芳 國立政治大學財政學系教授 101年4月18日.
Presentation transcript:

金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程 金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程 郑宇庭 谢邦昌 程兆庆 台湾政治大学资料采矿中心

报告大纲 研究目的 分析工具 建模流程 结论与建议 Q&A 2018/11/19

研究目的 有效地筛选出偿债能力不佳的个人信用卡客户,依此开发出一套信用风险系统,以帮助银行做出正确的核卡决策。 这个系统的开发、维护、与更新的成本预期将比银行现有系统的成本低。 2018/11/19

分析工具 Microsoft SQL Sever 2005 价格 自动化以及开发延伸程度 目前SPSS跟微软之间是采取合作的态度 2018/11/19

图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力 建模流程:CRISP-DM DATA MINING 处理流程 商业理解 资料理解 资料准备 资料源 DATA MINING 执行阶段 发布 建模 评估 2018/11/19 图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力

图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力 微软商业智慧解决方案 资料来源检视表(Data Source View) 商业理解 资料理解 整合性 服务 (SSIS) 资料源 资料准备 资料源 SSIS 分析服务 报表服务 发布 分析服务 (Data Mining) 建模 评估 2018/11/19 图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力

资料采矿无处不在 商业问题 Microsoft 算法 预测类别变量,例如营销响应、顾客流失、违约预测(巴塞尔资本协定IRB)… 决策树 贝氏机率分类 群集 类神经网络 罗吉斯回归 预测连续变量,例如预测销售量、预测客户价值变动、预测金融商品价格波动... 回归树 时间序列 预测序列,例如找出网站使用者的点选路径模式、客户缴款行为模式、商品购物顺序 时序群集 找出产品交叉销售关联性,又称为购物篮分析 关联规则 找出潜在相似性,例如市场区隔、侦测晶圆瑕疵分配、文件分类、保险浮滥理赔侦测、伪卡侦测 2018/11/19

商业理解(Business Understanding) 厘清商业问题 目前呆帐率是多少? 信用卡审核流程? 信用卡评分模型=分类模型 2018/11/19

资料理解(Data Understanding) 资料来源 某银行2000.1.1~2002.6.30的信用卡资料 数据内容 申请数据文件 缴款纪录文件 总共有1220个变数,502,333笔原始资料 违约户定义 缴款期间曾经有逾期60天以上未缴之卡户 2018/11/19

建模流程图 原始资料 误差抽样 选择2001.4~2001.6 训练组 测试组 清除遗漏值、异常值 建模 评估 数据转换 评估 2018/11/19

资料准备(Data Preparation) 选择合理的建模变量 基本数据 性别、教育程度、职业别…… 联合征信中心(JCIC)的资料 被查询总家数、延迟月数比率…… 与银行往来的资料 申请卡别类型、有没有使用扣款服务…… 2018/11/19

资料准备(Data Preparation) 选择合理的建模时间 时间间隔取为12个月至18个月 清除遗漏值、异常值 数据转换 连续型转成离散型:被查询总家数… 合并变项太多之变量:职业别… 衍生新的变数 2018/11/19

类型 变量名称 数据类型 个人资料 教育别 类别型(2类) 性别 旗标型 行业别 类别型(3类) 职称别 工作年资 类别型(5类) 紧急联络人与正卡关系 类别型(4类) 与银行往来纪录 是否申请结余代偿 扣款账号 金融联合征信中心 <过去六个月>延迟月数比率 连续型 <过去六个月>循还月数比率 近一年M2次数 整数型 <最近一个月>近期是否逾期 负债所得比 有效卡张数 被查询总家数 2018/11/19

建模(Modeling) 误差抽样(Over-Sampling) 将资料分成训练组与测试组 建模方法选择 将稀有事件透过抽样的方式将其比重提高 多的少抽(Reduce):正常户抽取率0.1 违约户抽取率1 将资料分成训练组与测试组 避免过度学习(Over-fitting) 建模方法选择 罗吉斯回归、决策树、类神经网络 2018/11/19

Data Mining Model Evaluation

Data Mining Model Evaluation 分类矩阵 横轴为预测结果,纵轴为实际结果 增益图 横轴为名单百分比,纵轴为累积占全体之百分比 收益图 根据成本以及销售成功利润,并计算出累积利润图 散布图 针对连续变量,可以利用此功能了解实际值与预测值间之差异性以及预测之趋势变动情形 2018/11/19

Data Mining Model Evaluation 说明: 在进行模型效益评估前必须先选入数据表,并在模型中勾选要进行评估比较之模型 选择“vTargetMail(dbo)” 勾选需要比较之模型 2018/11/19

Data Mining Model Evaluation 分类矩阵 藉由分类矩阵进一步比较,判别两模型的预测能力,由决策树模型发现,预测正确的资料有7103+5857=12960;而群集分析模型的正确预测数据为5395+5308=10703,也可看出决策树分类结果较群集分析分类结果好 2018/11/19

Data Mining Model Evaluation 增益图 增益图: 主要展现在整体的百分上所累积的效益状况 2018/11/19

Data Mining Model Evaluation 收益图 收益图: 可根据所设定之固定成本、单位成本以及单位营收加以计算,找出最佳获利点 2018/11/19

Data Mining Model Evaluation 散布图 散布图: 了解各模型之预测值、预测趋势以及实际值 2018/11/19

评估(Evaluation) 增益图(lift chart) 2018/11/19

评估(Evaluation) 分类矩阵(classification matrix) 衡量指标 Precise = a/a+b Recall = a/a+c Accuracy = a+d/a+b+c+d 实际 预测 违约户 正常户 a b c d 2018/11/19

发布(Deployment) 产生预测的违约机率值 单一查询 整批查询 2018/11/19

结论与建议 本研究以罗吉斯回归模型预测能力最好 本研究目的在于帮助作核卡的决策,另外有一些主题可供继续研究 核卡后 已违约 针对缴费情况的变化,再建构一预测违约模型,以预防违约发生。 已违约 建立一处理催收顺序的模型 2018/11/19

Q&A 欢迎提出问题讨论 2018/11/19