马宇翔：可解释+精确建模+动态化，这样的风控系统又稳又快！

2021 年 11 月 20 日 专知

分享嘉宾：马宇翔 akulaku 算法总监

编辑整理：孙晓晴清华大学

出品平台：DataFunTalk

导读：随着互联网金融的发展，不断增长的用户量、交易量及业务复杂度给风控系统带来巨大压力。Akulaku公司基于“贷前风控优先级高于其他环节风控”和“尽可能及时地对贷前风控做出调整”两大原则，针对智能风控系统整体流程中的效率优化问题，提出相应解决思路，包含风控系统多环嵌套反馈控制模型、基于AutoML的控制器选择、基于顺序集成技术和互信息方法的无监督特征提取、指标量化体系设计等具体技术细节。

本文主要围绕下面四点展开：

风控系统业务背景分析
问题解决思路
具体解决方案
未来展望

业务背景

Akulaku公司于2016年成立，专注于东南亚市场电商加金融科技业务。2020年公司注册用户达到3300万，期间不断增长的用户量和交易量给风控系统带来较大的压力。此外，业务复杂度（如数字银行、金融理财服务）的提升也给风控系统带来了新的挑战。

问题思路

1. 当前风控系统的分析

如下图所示，当前akulaku将风控系统分为贷前、贷中和贷后三个模块，同时在流层次分为信贷流、风控流和模型流三个部分。贷前阶段，需要在信贷流上完成渠道、进件审请和审批，在风控流上完成准入门槛、反欺诈识别、信用评估、授信、定价和贷前监控，同时在模型流上进行人脸对比、策略生成、反欺诈评分、团伙发现等任务。贷中阶段，信贷流中包括合同和还款，期间需要进行贷中监控、用户管理、营销管理和定价管理等业务，会使用大量行为数据、用户画像数据等对用户进行判断。贷后阶段包括催收和核销，其中使用到监控、催收工具等技术，同时会根据用户期数及还款逾期率、DPD、MP等指标完成催收评分卡构建、失联修复、智能催收等业务。

2. 建设智能风控流程的理论约束

公司依照“贷前风控优先级高于其他环节风控”和“尽可能及时地对贷前风控做出调整”两个原则，分析当前串行的风控流程，提出基于反馈（闭环）模型的智能风控系统。简单的反馈控制系统模型如下图所示，包括被控对象、控制器、控制算法和反馈器四个必要组件。其中被控对象即控制目标，控制器负责执行控制操作，控制算法即控制量的计算逻辑，反馈器则负责将输出量转化为反馈量。

从数学上来讲，上述动态系统的输出和输入之间是下面左图中微分方程的求解关系。其中，为解决傅里叶变换的非绝对可导问题，将其优化为拉普拉斯变换。

在不同类型的微分方程中，非线性微分方程不可解，线性微分方程中，偏微分方程主要通过有限元法求解（方法复杂度较高），而线性常微分方程容易求解。因此，我们倾向于将智能风控系统建模为如右图所示的线性常微分方程。

3. 建设智能风控流程的实际约束

以上模型仅支持风控系统的最基本迭代方式，即反馈仅来自于贷后，系统根据每期的用户贷后表现进行调整。但在实际应用中，这种模式存在两大缺点：首先，由于迭代周期甚至超过欺诈窗口期，系统无法及时对抗“短平快”的欺诈收发；其次，一期的风险需要累积到贷后环节才能做出反应，往往会错过最佳对抗时机。因此，在实际生产上，风控策略和分析会在各个环节中尽可能提前地完成系统调整，形成多环嵌套的反馈控制形式。

4. 系统智能化的可行性

多环反馈控制系统模型存在巨大的复杂性和常微分方程求解计算量，相应地会带来以下三个待解决问题：

稳定性：稳定性问题是任一自动控制系统能否实际应用的必要条件，自动控制理论应给出影响稳定性的因数，并给出各种因数引起稳定或不稳定的范围；
稳态响应：在稳态情况下，控制系统控制的准确程度，以及控制系统对各种干扰的抑制能力；
动态响应：但输入量改变或者有干扰引入后，控制系统以多快以及怎样的方式达到新的稳定状态。

对于问题一，我们需要建设可解释的控制器和反馈器。通过尽可能简化多环控制、对内环采用模糊控制、启发式方法和近似方法等手段减少计算量。对于问题二，我们需要完成输入量、误差量、控制量、输出量、反馈量的精确建模，为风控手段建设准确且全面的的指标量化体系。针对问题三，我们需要通过优化计算架构、设计降级逻辑、对控制值引入松弛变量等方式，对系统做动态化设计。

解决方案

1. 控制组件选择

反馈控制系统组件在风控系统中具象后，被控对象为某个风控环节，控制器即风控环节上的开关或阈值策略，控制算法负责根据输入量调整开关或阈值，而反馈器则用来将输出量映射为输入量。

一般来讲，我们会关注系统在故障发现、故障定位、告警触达和故障恢复四个方面的控制能力。其中，故障发现即系统风险发现，会涉及时序数据分类、时序数据异常检测、时序数据预测等AIOps相关技术。故障定位即风险定位，通过链路分析、根因分析和定位、关联性分析和知识图谱等技术，定位整个业务流上发生故障的控制器。告警触达部分包括降噪、聚合、抑制及关联规则挖掘等任务。故障（风险）恢复中常见的操作包括流量切换、预案、降级、混沌工程等。

① AutoML方法的启发

Akulaku公司首先使用AutoML生成一些类似规则的模型。如下图所示，AutoML经训练集数据学习后形成相应的模糊规则，之后通过规则组合在验证集上完成自动拟合。上述过程本质上是使用神经网络作为控制器，拟合非线性微分方程或若干线性微分方程的组合，在降低复杂度的同时提升了可解释性。

此外，为解决小样本学习问题，该系统通过AutoML，使用CNN架构进行了数据增广。具体来讲，首先通过特征选择将带标签数据分为训练集和验证集；预处理训练集数据后输入至数据增广网络；通过贝叶斯优化方法调整数据增广网络超参；最终得到可接受的数据增广结果。

② 提取无监督特征

为应对带标签数据量过小的问题，系统采用无监督方法进行特征提取与初步观察。

Akulaku公司采用的第一类方法是顺序集成技术，利用顺序性构造伪标签。而由于无监督条件下难以选定评价指标，此处首先以孤立森林模型为例，以样本隔离所需树的深度为标签，使用元启发式方法搜索。

具体来讲，算法首先使用K折交叉验证处理样本数据集，分别训练孤立森林模型；遍历树的深度，选出首个模型；在此基础上，通过顺序比较取出第二个模型；算法经过N次随机排序找到最优解。

第二类是通过使用互信息方法，即比较两个数据样本间差异，在无标签情况下找出噪声数据。较经典的方法是计算KL散度，但该指标值不对称，难以进行优化。因此Akulaku公司借鉴了GAN中的JS散度来表示两数据分布（X和Z）的相关性。

2. 指标量化体系

① 输入量和输出量

风控系统的三个流的每个环节都可以进行元数据采集和监控。比如，渠道部分包括历史风险表现、收益、稳定性、用户质量及KYC成功率等；贷前风控部分包括设备、行为、团伙、额度、利率、评分等维度；贷中风控部分会基于用户行为数据进行流失预测、还款倾向等分析；贷后管理则包括一些关于催收和还款在金额、数量、比率等方面的指标量化。

金额类：包括各类本金、本息、利息、余额等，比如剩余本金、贷款余额、逾期罚息、逾期利息、违约本金等。
数量类：包括各类笔数、户数、件数等，比如申请笔数、放款笔数、日均进件量、结清户数等。
比率类：包括各类占率、比率等，比如通过率、逾期率、不良率、疑似欺诈率等。

② 控制量和反馈量

系统的控制量和反馈量由模型输出而来，难以直接在业务层面被理解。Akulaku公司使用如下三类方法构建此类指标的量化体系。

第一部分使用Filter方法，计算控制手段的覆盖率、输出的若干控制量之间的相关系数、方差差异、分布差异（如KL散度）、CSI（实际和预测的差距）等指标。

第二部分采用Warpper方法。首先使用启发式搜索进行序列前向、后向搜索选择。之后递归地进行特征消除，使用一个基模型进行多轮训练，每轮训练后通过学习器返回的coef_或者likehood_消除若干权重较低的特征，再基于新的特征集进行下一轮训练。

第三部分使用embedded方法。首先是LASSO方法，通过对回归系数添加惩罚项来防止过拟合，可以让特定的回归系数变为0，从而选择一个不包含那些系数的更简单模型。其次是基于树模型的特征选择方法,在决策树中，深度较浅的节点一般对应的特征分类能力更强(可以将更多的样本区分开)。对于基于决策树的算法，如随机森林，重要的特征更有可能出现在深度较浅的节点，而且出现的次数可能更多。最后是深度嵌入方法（如Deep k-means），即在无监督模型前加若干神经网络层，使用无监督目标函数训练后将全连接层输出作为embedded结果。

未来展望

1. 人机结合的最优解

首先，当前解决方案推荐环节中的各个方案都会带有较强的专家个人经验及假设，而无法具备较高的互通性或通用性。可通过元数据采集、控制器部署等方法形成最优算法推荐系统。