浅谈最广泛应用的金融风控算法-评分卡 - 专知

会员服务 ·

0

浅谈最广泛应用的金融风控算法-评分卡

2020 年 8 月 3 日 凡人机器学习

背景

信用是一切社会金融体系的根本，有了每个人的信用我们才可以进行放贷、共享充电宝、共享单车等业务。如果可以准确的给每个社会成员的信用做一个打分，将对金融业务的推进有很大作用，很多相关业务的企业也在探索如何实现信用分。

目前业内最通用的方案是评分卡算法，这个算法底层其实就是简单的二分类模型，将逻辑回归或者xgboost进行封装。但是为什么不能直接使用xgboost甚至深度学习算法做信用评估呢？因为金融业务有自己的特殊性，要求模型需要有强解释性，所以评分卡解决方案经常包含分箱和评分两个模块。就是为了做到每个分数的强解释性。

评分卡模型解释性

通过一个例子介绍什么叫强解释性。以下图为例：

这是一个评分卡算法的部分特征数据展示，有年龄、性别、婚姻状况、学历、月收入。评判每个人的分数也很容易：

客户分=基准分+年龄分+性别分+婚姻状况分+学历分+月收入分

所以在评分卡体系中，每个人的分数都会拆分成很多子模块，这些子模块的分数的和，跟基准分加到一起就是信用评分。接下来介绍下评分卡的执行流程。

评分卡流程

1.数据准备

通常评分卡模型的数据需要包含四个方面，分别是客户统计信息、账户属性、消费行为和还款行为。

根据数据目标的不同，可以分为ABC三种评分卡：

贷前：申请评分卡（Application score card），又称为A卡

贷中：行为评分卡（Behavior score card），又称为B卡

贷后：催收评分卡（Collection score card），又称为C卡

2.分箱

分箱算法是将每个字段按照不同的模式进行离散化处理。分箱有很多模式，分为有监督模式和无监督模式。

有监督分箱：通过训练二叉树模型，将IV大的切分点找出来实现分箱

无监督分箱：利用等频、等距等模式进行分箱

分箱出来的分箱结果需要进行评估，并且不断调整分箱。评估方式是要计算WOE和IV指标。

WOE指的是该组好的客户和所有好的客户的比例，WOE的值最终会影响IV的值，IV的公式：

IV的值越大，说明这个分箱模式对结果的预测越重要，所以分箱的目的是尽可能的提升每组分箱结果的IV值。

通常分箱算法会提供一个WOE和IV的展示图：

3.评分算法

评分算法相对就比较简单，其实就是训练一个逻辑回归或者XGboost模型，将模型系数跟对应的分箱的WOE值做加权。

其中A是个基准分，B为常量，量系数，和对应分箱的WOE编码。最终通过评分算法将每个人的分数映射到一个合理的区间，所以评分区间的设定主要是调整A的取值，比如我们希望每个人的信用分都是500左右，就可以把A调整为500。最终的评分卡方案就是分箱+打分模型。

参考文献：

[1]https://zhuanlan.zhihu.com/p/36539125

[2]https://blog.csdn.net/ISMedal/article/details/89380396

[3]https://www.jianshu.com/p/c3fa53c54cca

登录查看更多

10

相关内容

xgboost

xgboost的全称是eXtreme Gradient Boosting，它是Gradient Boosting Machine的一个C++实现，并能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。

生成对抗网络GAN的发展与最新应用

生成对抗网络GAN的发展与最新应用

专知会员服务

127+阅读 · 2020年8月13日

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

专知会员服务

33+阅读 · 2020年8月7日

现代优化理论与应用

专知会员服务

89+阅读 · 2020年8月2日

【金融机器学习课程资料】Financial Machine Learning

专知会员服务

119+阅读 · 2019年12月24日

医疗知识图谱构建与应用

医疗知识图谱构建与应用

专知会员服务

390+阅读 · 2019年9月25日

金融风控面试十二问

金融风控面试十二问

七月在线实验室

20+阅读 · 2019年4月9日

金融风控背后的技术综述

金融风控背后的技术综述

七月在线实验室

45+阅读 · 2019年2月28日

机器学习实战：Python信用卡欺诈检测

机器学习实战：Python信用卡欺诈检测

引力空间站

6+阅读 · 2017年9月6日

阿里数加：机器学习算法基于信用卡消费记录做信用评分

阿里数加：机器学习算法基于信用卡消费记录做信用评分

ITS专业大数据

7+阅读 · 2017年6月16日

机器学习实现金融风控

机器学习实现金融风控

凡人机器学习

15+阅读 · 2017年6月1日

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

Hierarchical Contextualized Representation for Named Entity Recognition

Hierarchical Contextualized Representation for Named Entity Recognition

Arxiv

4+阅读 · 2019年11月19日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching

Arxiv

8+阅读 · 2019年10月9日

Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding

Arxiv

7+阅读 · 2018年11月4日

VIP会员

相关主题

相关VIP内容

生成对抗网络GAN的发展与最新应用

生成对抗网络GAN的发展与最新应用

专知会员服务

127+阅读 · 2020年8月13日

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

专知会员服务

33+阅读 · 2020年8月7日

现代优化理论与应用

专知会员服务

89+阅读 · 2020年8月2日

【金融机器学习课程资料】Financial Machine Learning

专知会员服务

119+阅读 · 2019年12月24日

医疗知识图谱构建与应用

医疗知识图谱构建与应用

专知会员服务

390+阅读 · 2019年9月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】面向真实世界音视联合语音识别的可扩展框架

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

评估大语言模型在科学发现中的作用

相关资讯

金融风控面试十二问

金融风控面试十二问

七月在线实验室

20+阅读 · 2019年4月9日

金融风控背后的技术综述

金融风控背后的技术综述

七月在线实验室

45+阅读 · 2019年2月28日

机器学习实战：Python信用卡欺诈检测

机器学习实战：Python信用卡欺诈检测

引力空间站

6+阅读 · 2017年9月6日

阿里数加：机器学习算法基于信用卡消费记录做信用评分

阿里数加：机器学习算法基于信用卡消费记录做信用评分

ITS专业大数据

7+阅读 · 2017年6月16日

机器学习实现金融风控

机器学习实现金融风控

凡人机器学习

15+阅读 · 2017年6月1日

相关论文

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

Hierarchical Contextualized Representation for Named Entity Recognition

Hierarchical Contextualized Representation for Named Entity Recognition

Arxiv

4+阅读 · 2019年11月19日

Unsupervised Cross-lingual Representation Learning at Scale

Arxiv

5+阅读 · 2019年11月5日

Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching

Arxiv

8+阅读 · 2019年10月9日

Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding

Arxiv

7+阅读 · 2018年11月4日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员