Download presentation
Presentation is loading. Please wait.
1
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程
金融数据挖掘和商业数据挖掘 建构信用卡评分模型之商业智能流程 郑宇庭 谢邦昌 程兆庆 台湾政治大学资料采矿中心
2
报告大纲 研究目的 分析工具 建模流程 结论与建议 Q&A 2018/11/19
3
研究目的 有效地筛选出偿债能力不佳的个人信用卡客户,依此开发出一套信用风险系统,以帮助银行做出正确的核卡决策。
这个系统的开发、维护、与更新的成本预期将比银行现有系统的成本低。 2018/11/19
4
分析工具 Microsoft SQL Sever 2005 价格 自动化以及开发延伸程度 目前SPSS跟微软之间是采取合作的态度
2018/11/19
5
图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力
建模流程:CRISP-DM DATA MINING 处理流程 商业理解 资料理解 资料准备 资料源 DATA MINING 执行阶段 发布 建模 评估 2018/11/19 图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力
6
图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力
微软商业智慧解决方案 资料来源检视表(Data Source View) 商业理解 资料理解 整合性 服务 (SSIS) 资料源 资料准备 资料源 SSIS 分析服务 报表服务 发布 分析服务 (Data Mining) 建模 评估 2018/11/19 图表来源:杨自强 企业如何应用商业智慧来提升执行力与竞争力
7
资料采矿无处不在 商业问题 Microsoft 算法 预测类别变量,例如营销响应、顾客流失、违约预测(巴塞尔资本协定IRB)… 决策树
贝氏机率分类 群集 类神经网络 罗吉斯回归 预测连续变量,例如预测销售量、预测客户价值变动、预测金融商品价格波动... 回归树 时间序列 预测序列,例如找出网站使用者的点选路径模式、客户缴款行为模式、商品购物顺序 时序群集 找出产品交叉销售关联性,又称为购物篮分析 关联规则 找出潜在相似性,例如市场区隔、侦测晶圆瑕疵分配、文件分类、保险浮滥理赔侦测、伪卡侦测 2018/11/19
8
商业理解(Business Understanding)
厘清商业问题 目前呆帐率是多少? 信用卡审核流程? 信用卡评分模型=分类模型 2018/11/19
9
资料理解(Data Understanding)
资料来源 某银行 ~ 的信用卡资料 数据内容 申请数据文件 缴款纪录文件 总共有1220个变数,502,333笔原始资料 违约户定义 缴款期间曾经有逾期60天以上未缴之卡户 2018/11/19
10
建模流程图 原始资料 误差抽样 选择2001.4~2001.6 训练组 测试组 清除遗漏值、异常值 建模 评估 数据转换 评估
2018/11/19
11
资料准备(Data Preparation)
选择合理的建模变量 基本数据 性别、教育程度、职业别…… 联合征信中心(JCIC)的资料 被查询总家数、延迟月数比率…… 与银行往来的资料 申请卡别类型、有没有使用扣款服务…… 2018/11/19
12
资料准备(Data Preparation)
选择合理的建模时间 时间间隔取为12个月至18个月 清除遗漏值、异常值 数据转换 连续型转成离散型:被查询总家数… 合并变项太多之变量:职业别… 衍生新的变数 2018/11/19
13
类型 变量名称 数据类型 个人资料 教育别 类别型(2类) 性别 旗标型 行业别 类别型(3类) 职称别 工作年资 类别型(5类)
紧急联络人与正卡关系 类别型(4类) 与银行往来纪录 是否申请结余代偿 扣款账号 金融联合征信中心 <过去六个月>延迟月数比率 连续型 <过去六个月>循还月数比率 近一年M2次数 整数型 <最近一个月>近期是否逾期 负债所得比 有效卡张数 被查询总家数 2018/11/19
14
建模(Modeling) 误差抽样(Over-Sampling) 将资料分成训练组与测试组 建模方法选择
将稀有事件透过抽样的方式将其比重提高 多的少抽(Reduce):正常户抽取率0.1 违约户抽取率1 将资料分成训练组与测试组 避免过度学习(Over-fitting) 建模方法选择 罗吉斯回归、决策树、类神经网络 2018/11/19
15
Data Mining Model Evaluation
16
Data Mining Model Evaluation
分类矩阵 横轴为预测结果,纵轴为实际结果 增益图 横轴为名单百分比,纵轴为累积占全体之百分比 收益图 根据成本以及销售成功利润,并计算出累积利润图 散布图 针对连续变量,可以利用此功能了解实际值与预测值间之差异性以及预测之趋势变动情形 2018/11/19
17
Data Mining Model Evaluation
说明: 在进行模型效益评估前必须先选入数据表,并在模型中勾选要进行评估比较之模型 选择“vTargetMail(dbo)” 勾选需要比较之模型 2018/11/19
18
Data Mining Model Evaluation
分类矩阵 藉由分类矩阵进一步比较,判别两模型的预测能力,由决策树模型发现,预测正确的资料有 =12960;而群集分析模型的正确预测数据为 =10703,也可看出决策树分类结果较群集分析分类结果好 2018/11/19
19
Data Mining Model Evaluation
增益图 增益图: 主要展现在整体的百分上所累积的效益状况 2018/11/19
20
Data Mining Model Evaluation
收益图 收益图: 可根据所设定之固定成本、单位成本以及单位营收加以计算,找出最佳获利点 2018/11/19
21
Data Mining Model Evaluation
散布图 散布图: 了解各模型之预测值、预测趋势以及实际值 2018/11/19
22
评估(Evaluation) 增益图(lift chart) 2018/11/19
23
评估(Evaluation) 分类矩阵(classification matrix) 衡量指标 Precise = a/a+b
Recall = a/a+c Accuracy = a+d/a+b+c+d 实际 预测 违约户 正常户 a b c d 2018/11/19
24
发布(Deployment) 产生预测的违约机率值 单一查询 整批查询 2018/11/19
25
结论与建议 本研究以罗吉斯回归模型预测能力最好 本研究目的在于帮助作核卡的决策,另外有一些主题可供继续研究 核卡后 已违约
针对缴费情况的变化,再建构一预测违约模型,以预防违约发生。 已违约 建立一处理催收顺序的模型 2018/11/19
26
Q&A 欢迎提出问题讨论 2018/11/19
Similar presentations