金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程

金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程
金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程郑宇庭谢邦昌程兆庆台湾政治大学资料采矿中心

报告大纲研究目的分析工具建模流程结论与建议 Q&A 2018/11/19

研究目的有效地筛选出偿债能力不佳的个人信用卡客户，依此开发出一套信用风险系统，以帮助银行做出正确的核卡决策。
这个系统的开发、维护、与更新的成本预期将比银行现有系统的成本低。 2018/11/19

分析工具 Microsoft SQL Sever 2005 价格自动化以及开发延伸程度目前SPSS跟微软之间是采取合作的态度
2018/11/19

图表来源：杨自强企业如何应用商业智慧来提升执行力与竞争力
建模流程：CRISP-DM DATA MINING 处理流程商业理解资料理解资料准备资料源 DATA MINING 执行阶段发布建模评估 2018/11/19 图表来源：杨自强企业如何应用商业智慧来提升执行力与竞争力

图表来源：杨自强企业如何应用商业智慧来提升执行力与竞争力
微软商业智慧解决方案资料来源检视表(Data Source View) 商业理解资料理解整合性服务 (SSIS) 资料源资料准备资料源 SSIS 分析服务报表服务发布分析服务 (Data Mining) 建模评估 2018/11/19 图表来源：杨自强企业如何应用商业智慧来提升执行力与竞争力

资料采矿无处不在商业问题 Microsoft 算法预测类别变量，例如营销响应、顾客流失、违约预测(巴塞尔资本协定IRB)… 决策树
贝氏机率分类群集类神经网络罗吉斯回归预测连续变量，例如预测销售量、预测客户价值变动、预测金融商品价格波动... 回归树时间序列预测序列，例如找出网站使用者的点选路径模式、客户缴款行为模式、商品购物顺序时序群集找出产品交叉销售关联性，又称为购物篮分析关联规则找出潜在相似性，例如市场区隔、侦测晶圆瑕疵分配、文件分类、保险浮滥理赔侦测、伪卡侦测 2018/11/19

商业理解(Business Understanding)
厘清商业问题目前呆帐率是多少？信用卡审核流程？信用卡评分模型=分类模型 2018/11/19

资料理解(Data Understanding)
资料来源某银行 ~ 的信用卡资料数据内容申请数据文件缴款纪录文件总共有1220个变数，502,333笔原始资料违约户定义缴款期间曾经有逾期60天以上未缴之卡户 2018/11/19

建模流程图原始资料误差抽样选择2001.4~2001.6 训练组测试组清除遗漏值、异常值建模评估数据转换评估
2018/11/19

资料准备(Data Preparation)
选择合理的建模变量基本数据性别、教育程度、职业别…… 联合征信中心(JCIC)的资料被查询总家数、延迟月数比率…… 与银行往来的资料申请卡别类型、有没有使用扣款服务…… 2018/11/19

资料准备(Data Preparation)
选择合理的建模时间时间间隔取为12个月至18个月清除遗漏值、异常值数据转换连续型转成离散型：被查询总家数… 合并变项太多之变量：职业别… 衍生新的变数 2018/11/19

类型变量名称数据类型个人资料教育别类别型(2类) 性别旗标型行业别类别型(3类) 职称别工作年资类别型(5类)
紧急联络人与正卡关系类别型(4类) 与银行往来纪录是否申请结余代偿扣款账号金融联合征信中心 <过去六个月>延迟月数比率连续型 <过去六个月>循还月数比率近一年M2次数整数型 <最近一个月>近期是否逾期负债所得比有效卡张数被查询总家数 2018/11/19

建模(Modeling) 误差抽样(Over-Sampling) 将资料分成训练组与测试组建模方法选择
将稀有事件透过抽样的方式将其比重提高多的少抽(Reduce)：正常户抽取率0.1 违约户抽取率1 将资料分成训练组与测试组避免过度学习(Over-fitting) 建模方法选择罗吉斯回归、决策树、类神经网络 2018/11/19

Data Mining Model Evaluation

分类矩阵横轴为预测结果，纵轴为实际结果增益图横轴为名单百分比，纵轴为累积占全体之百分比收益图根据成本以及销售成功利润，并计算出累积利润图散布图针对连续变量，可以利用此功能了解实际值与预测值间之差异性以及预测之趋势变动情形 2018/11/19

说明：在进行模型效益评估前必须先选入数据表，并在模型中勾选要进行评估比较之模型选择“vTargetMail(dbo)” 勾选需要比较之模型 2018/11/19

分类矩阵藉由分类矩阵进一步比较，判别两模型的预测能力，由决策树模型发现，预测正确的资料有 =12960；而群集分析模型的正确预测数据为 =10703，也可看出决策树分类结果较群集分析分类结果好 2018/11/19

增益图增益图：主要展现在整体的百分上所累积的效益状况 2018/11/19

收益图收益图：可根据所设定之固定成本、单位成本以及单位营收加以计算，找出最佳获利点 2018/11/19

散布图散布图：了解各模型之预测值、预测趋势以及实际值 2018/11/19

评估(Evaluation) 增益图（lift chart） 2018/11/19

评估(Evaluation) 分类矩阵(classification matrix) 衡量指标 Precise = a/a+b
Recall = a/a+c Accuracy = a+d/a+b+c+d 实际预测违约户正常户 a b c d 2018/11/19

发布(Deployment) 产生预测的违约机率值单一查询整批查询 2018/11/19

结论与建议本研究以罗吉斯回归模型预测能力最好本研究目的在于帮助作核卡的决策，另外有一些主题可供继续研究核卡后已违约
针对缴费情况的变化，再建构一预测违约模型，以预防违约发生。已违约建立一处理催收顺序的模型 2018/11/19

Q&A 欢迎提出问题讨论 2018/11/19

金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程

Similar presentations

Presentation on theme: "金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程

Similar presentations

Presentation on theme: "金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程"— Presentation transcript:

Similar presentations

About project

反馈

金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程

Presentation on theme: "金融数据挖掘和商业数据挖掘建构信用卡评分模型之商业智能流程"— Presentation transcript: