浅谈最广泛应用的金融风控算法-评分卡

2020 年 8 月 3 日 凡人机器学习
背景

信用是一切社会金融体系的根本,有了每个人的信用我们才可以进行放贷、共享充电宝、共享单车等业务。如果可以准确的给每个社会成员的信用做一个打分,将对金融业务的推进有很大作用,很多相关业务的企业也在探索如何实现信用分。


目前业内最通用的方案是评分卡算法,这个算法底层其实就是简单的二分类模型,将逻辑回归或者xgboost进行封装。但是为什么不能直接使用xgboost甚至深度学习算法做信用评估呢?因为金融业务有自己的特殊性,要求模型需要有强解释性,所以评分卡解决方案经常包含分箱和评分两个模块。就是为了做到每个分数的强解释性。


评分卡模型解释性


通过一个例子介绍什么叫强解释性。以下图为例:

这是一个评分卡算法的部分特征数据展示,有年龄、性别、婚姻状况、学历、月收入。评判每个人的分数也很容易:


客户分=基准分+年龄分+性别分+婚姻状况分+学历分+月收入分


所以在评分卡体系中,每个人的分数都会拆分成很多子模块,这些子模块的分数的和,跟基准分加到一起就是信用评分。接下来介绍下评分卡的执行流程。


评分卡流程
1.数据准备


通常评分卡模型的数据需要包含四个方面,分别是客户统计信息、账户属性、消费行为和还款行为。


根据数据目标的不同,可以分为ABC三种评分卡:


  • 贷前:申请评分卡(Application score card),又称为A卡

  • 贷中:行为评分卡(Behavior score card),又称为B卡

  • 贷后:催收评分卡(Collection score card),又称为C卡

2.分箱

分箱算法是将每个字段按照不同的模式进行离散化处理。分箱有很多模式,分为有监督模式和无监督模式。


  • 有监督分箱:通过训练二叉树模型,将IV大的切分点找出来实现分箱

  • 无监督分箱:利用等频、等距等模式进行分箱


分箱出来的分箱结果需要进行评估,并且不断调整分箱。评估方式是要计算WOE和IV指标。


WOE指的是该组好的客户和所有好的客户的比例,WOE的值最终会影响IV的值,IV的公式:

IV的值越大,说明这个分箱模式对结果的预测越重要,所以分箱的目的是尽可能的提升每组分箱结果的IV值。


通常分箱算法会提供一个WOE和IV的展示图:

3.评分算法

评分算法相对就比较简单,其实就是训练一个逻辑回归或者XGboost模型,将模型系数跟对应的分箱的WOE值做加权。

其中A是个基准分,B为常量量系数  ,和对应分箱的WOE编码  。最终通过评分算法将每个人的分数映射到一个合理的区间,所以评分区间的设定主要是调整A的取值,比如我们希望每个人的信用分都是500左右,就可以把A调整为500。最终的评分卡方案就是分箱+打分模型。



参考文献:

[1]https://zhuanlan.zhihu.com/p/36539125

[2]https://blog.csdn.net/ISMedal/article/details/89380396

[3]https://www.jianshu.com/p/c3fa53c54cca


登录查看更多
10

相关内容

xgboost的全称是eXtreme Gradient Boosting,它是Gradient Boosting Machine的一个C++实现,并能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。
专知会员服务
12+阅读 · 2020年9月19日
专知会员服务
18+阅读 · 2020年9月11日
机器学习的可解释性
专知会员服务
175+阅读 · 2020年8月27日
生成对抗网络GAN的发展与最新应用
专知会员服务
126+阅读 · 2020年8月13日
专知会员服务
86+阅读 · 2020年8月2日
专知会员服务
115+阅读 · 2019年12月24日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
关系图谱在贝壳找房风控体系的应用与实践
DataFunTalk
49+阅读 · 2020年2月12日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
金融风控面试十二问
七月在线实验室
20+阅读 · 2019年4月9日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
金融风控背后的技术综述
七月在线实验室
45+阅读 · 2019年2月28日
领域应用 | 图数据库及其在恒昌的应用简介
开放知识图谱
6+阅读 · 2017年10月10日
机器学习实战:Python信用卡欺诈检测
引力空间站
6+阅读 · 2017年9月6日
机器学习实现金融风控
凡人机器学习
15+阅读 · 2017年6月1日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
专知会员服务
12+阅读 · 2020年9月19日
专知会员服务
18+阅读 · 2020年9月11日
机器学习的可解释性
专知会员服务
175+阅读 · 2020年8月27日
生成对抗网络GAN的发展与最新应用
专知会员服务
126+阅读 · 2020年8月13日
专知会员服务
86+阅读 · 2020年8月2日
专知会员服务
115+阅读 · 2019年12月24日
【论文推荐】文本分析应用的NLP特征推荐
专知会员服务
33+阅读 · 2019年12月8日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
相关资讯
关系图谱在贝壳找房风控体系的应用与实践
DataFunTalk
49+阅读 · 2020年2月12日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
金融风控面试十二问
七月在线实验室
20+阅读 · 2019年4月9日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
金融风控背后的技术综述
七月在线实验室
45+阅读 · 2019年2月28日
领域应用 | 图数据库及其在恒昌的应用简介
开放知识图谱
6+阅读 · 2017年10月10日
机器学习实战:Python信用卡欺诈检测
引力空间站
6+阅读 · 2017年9月6日
机器学习实现金融风控
凡人机器学习
15+阅读 · 2017年6月1日
Top
微信扫码咨询专知VIP会员