基于关系的违规团伙发掘风控方案

会员服务 ·

基于关系的违规团伙发掘风控方案

2019 年 12 月 16 日 凡人机器学习

业务背景

目前很多平台方都有团伙作案的情况发生，比如团伙性薅羊毛，比如团伙性的制造一些虚假信息，团伙性发送违法广告。之所以是团伙性作案，因为作案人员之间有某种关系连接。当业务方获取了人员关系之后，能否成功挖掘出违规团伙，关系到平台的安全。

业务痛点

绝大部分客户可以通过SNS留言、转账、通话等数据构建出用户关系网络，并且可以甄别出网络中部分违规客户，缺乏有效的智能化的方案对全网所有客户进行是否违规的判断。

解决方案

PAI平台提供了一套基于关系图挖掘的的算法，包含标签传播、最大联通子图等经典图算法

1.人力要求：需要具备基础的图挖掘算法背景、懂得关系型数据的构建模式

2.开发周期：1-2天

3.数据要求：可以将数据构建成点边点的模式，点指的是每个用户，边指的是某种关系（关系可以是通话、转账、留言等等）

数据说明

下图是已知的一份人物通联关系图，每两个人之间的连线表示两人有一定关系，可以是同事或者亲人关系等。已知“Enoch”是信用用户，“Evan”是欺诈用户。需要通过图算法，计算出其它人的信用指数，即得到图中每个人是欺诈用户的概率。这个数据可以方便相关机构做风控。

)

上图对应的数据集如下，上图是个有向图，每个点代表一个人，每个人都是一个start_point，每个start_point都连接一个end_point。count表示start_point和end_point的连线，count值越大说明start_point和end_point这两个人的关系越密切。

特征数据：

参数名称	参数描述
start_point	用户A，每个关系连线的起点
end_point	用户B，每个关系连线的终点
count	用户A和用户B的关系程度

流程说明

进入PAI-Studio产品：https://pai.data.aliyun.com/console

将数据导入，搭建如下算法架构：

1. 最大联通子图

最大联通子图的功能：图算法的输入数据是关系图谱结构的，最大联通子图可以找到有通联关系的最大集合，在团伙发现的场景中可以排除掉一些与风控场景无关的人。
本次实验通过最大联通子图组件将数据中的群体分为两部分，并赋予group_id。通过SQL脚本组件和JOIN组件去除下图中的无关联人员。

2. 单源最短路径

通过单源最短路径组件探查出每个人的一度人脉、二度人脉等关系。“distance”表示“Enoch”通过几个人可以联络到目标人，如下图所示：

3. 标签传播分类

标签传播分类算法为半监督的分类算法，原理是用已标记节点的标签信息去预测未标记节点的标签信息。在算法执行过程中，每个节点的标签按相似度传播给相邻节点。
使用标签传播分类组件除了需要所有人员的通联图数据以外，还要有人员打标数据。本实验通过已知数据（读数据表）组件导入打标数据（“weight”表示目标是欺诈用户的概率），如下图所示: