随着数字金融的快速发展,欺诈呈现出智能化、产业化以及强隐蔽性等新特点,传统的专家规则和机器学习 方法局限性日益显现。图异常检测技术对关联信息具有强大的处理能力,为金融反欺诈提供了新的思路。简要介 绍了图异常检测的发展历程和优势;着重从个体反欺诈和群体反欺诈两个视角,将图异常检测划分为基于特征、基 于邻近性、基于图表示学习和基于社区划分的个体欺诈检测,以及基于稠密子图、基于稠密子张量和基于深层网络 结构的团伙欺诈检测,并对每类技术的基本思想、优缺点、研究进展和典型应用进行对比分析;同时归纳总结了常用 的数据集和评价指标,并给出图异常检测在金融反欺诈中的发展前景和研究方向。

1. 概述

当今,数字化金融服务以其非接触、高效率和服务 场景灵活等优势,极大便利了消费者的金融活动,在大 数据、云计算以及人工智能等新兴技术的驱动下,以金 融科技为主题的金融革命正以燎原之势席卷全球[1-2] ,各 种创新型数字化金融服务场景和渠道不断涌现。同时, 以此为背景的“黑色产业”肆虐发展,已经渗透到个人信 贷、医疗保险和车险理赔等金融领域。据统计,相关“黑 色产业”从业人员超过 500 万,涉及金额损失达到千亿 级别[3] 。因此,探究新型场景下的金融反欺诈研究方法 具有极大的理论价值和现实意义。

早期的文献多集中于利用检测规则进行欺诈识别, 前提假设为欺诈活动存在明显的规则模式,可以通过定 义一些组合规则进行识别,其具有易操作性和可解释 性,因此在早期的欺诈检测中广受欢迎。基于规则的方 法高度依赖人类专家的知识判定,难以发现复杂动态且 隐蔽的欺诈模式,同时,极易被欺诈者识别进而改变自 身的欺诈行为以躲避检测,这将不断提升基于规则的检 测难度。为此,许多学者提出使用机器学习以挖掘常规 方式难以识别的潜在欺诈模式。该类方法将从不同维 度提取用户的统计特征,如用户的社会属性、交易信息 和行为信息,用传统的机器学习模型对用户数据进行训 练学习[4-5] 。然而,此类方法将用户特征作为独立的矢量。处理,忽略了实体之间的关联性。 如今,我国信息化迈入以物联网和云计算为代表的 新阶段,金融机构积累了海量的用户属性信息和行为信 息,如何从中挖掘用户间关联成为提高欺诈检测性能的 关键。图数据在表示实体复杂交互关系方面具有得天 独 厚 的 优 势 ,基 于 图 挖 掘 的 异 常 识 别 技 术(graphbased anomaly detection,GBAD)因其高效、普适和准 确性高等特点受到了工业界和学术界的广泛关注。此 类方法致力于从“关系”角度分析问题,基于行业大数据 和相关领域知识构建关联网络,实体抽象为图中的节 点,实体间的交互抽象为节点间的连边,并运用相关的 图挖掘技术识别异常模式的节点、边或者子图。相比传 统的欺诈检测技术,基于图的异常检测不仅可以直观地 呈现数据中隐含的复杂拓扑结构,而且将数据对象间的 关联融入到欺诈识别任务中,从网络的整体拓扑结构出 发更容易识别隐藏极深的欺诈行为。近年来,GBAD技 术在识别网络内的欺诈活动方面做出了巨大贡献,被欺 诈检测专家认为是稳健、可靠和有前途的异常检测技术[6] 。

本文对图异常检测在金融反欺诈中的应用进行系统 分类,介绍其中具有代表性的方法,探讨现有方法的局限 性和面临的挑战,指明未来的研究方向。具体贡献如下: (1)分别从个体反欺诈和群体反欺诈的视角,将图 异常检测技术系统分类,并对每种技术进行全面的评 述、分析和比较; (2)拓展了图异常检测方法,整理归纳近几年涌现 的基于图嵌入、深度自编码器以及图神经网络等技术解 决欺诈检测的新方法; (3)结合当前反欺诈的前沿任务展望图异常检测技 术的发展方向。

2. 图异常检测技术研究进展

2.1 图异常检测技术定义

Hawkins 定义传统的异常检测是寻找数据集中分 布或形成机制显著区别于正常模式的数据对象[7] 。图异 常检测[8] 是利用图数据结构进行问题建模,并基于相关 的图数据挖掘技术,在图中寻找显著不同于其他图对象 的节点、边或子结构。 欺诈检测问题可以转换为异常检测任务(anomaly detection,AD),相比传统的异常检测技术,图异常检测 在反欺诈领域呈现出巨大的优势,主要体现在以下几个 方面:

(1)欺诈领域中数据的相互依赖性

传统的异常检测技术将数据视为独立存在于多维 空间中的点。在实际问题中,尤其是在欺诈场景下,数 据对象通常相互关联并表现出依赖性。因此在进行异 常检测过程时需要考虑相关性。图数据结构通过在相 关对象之间引入连边自然地表示相互依赖关系,为有效 捕捉这种长期相关性提供了强大的范式。例如,在评论 者-产品评论的图数据中,评审者的欺诈程度不仅取决于其评论的对象和内容,而且取决于其他评审者如何评 价同一产品及其评价的可信度,而这又依赖他们评价的 其他产品[9] 。由于真实数据集中存在的相关性,在图数 据中检测异常更为合理。

(2)欺诈领域的异常关系

欺诈现象的本质可以表示为异常关系,通常考虑两 种情况:① 基于关系传播的机会主义欺诈(如果一个人 存在欺诈行为,那么他的熟人有很大概率会进行诈骗); ② 基于相关群体密切合作的有组织欺诈[10] 。以上这两 种情况都指向异常关系的检测。

(3)图异常检测模型的健壮性

随着欺诈的日益专业化,欺诈者通常改变欺诈手法 以逃避检测,例如更改或伪造登录时间和IP地址等行为 线索。但是欺诈者无法操纵整个关联网络,因此图异常 检测被认为是更健壮的对抗欺诈的方法。

2.2 图异常检测技术的研究进展

图数据结构对关联信息强大的表示能力以及图计 算和深度神经网络等相关技术的发展,使得图异常检测 技术逐渐成为国内外学者的研究热点。Akoglu 等人[11] 将图异常检测技术分为基于结构、基于社区、基于分解 和基于窗口等类型,系统梳理了每类方法下的关键技 术,并讨论了图异常检测技术在包括欺诈检测在内的真 实场景下的应用。Gupta等人[12] 对时序网络中的图异常 检测技术进行了总结和归纳,包括基于图相似度、基于 特征向量和基于社区这三类方法。Ranshous 等人[13] 全 面概述了动态图中的异常检测技术,将其划分为基于社 区、基于压缩、基于分解、基于距离和基于概率分布五 种类型,并对每类方法中的主流算法进行对比分析。 Savage等人[14] 关注于在线社交网络(online social network, OSN)中不同类型异常(如异常节点、边缘或子图)的检 测。他们将 OSN中的异常检测总结为两个步骤:(1)网 络特征的选择和计算;(2)基于该特征空间对观测进行 分类。李忠等人[15] 分别基于静态图和动态图的视角,根 据异常类型进一步将静态图异常检测划分为孤立个体 异常检测和群体异常检测两类,动态图异常检测分为孤 立个体异常检测、群体异常检测和事件异常检测三类, 并系统梳理了每类异常检测的关键性技术。苏红军等 人[16] 从技术层面将静态图异常检测分为基于结构、基于 社区和基于关系学习三类,按照异常类型将动态图异常 检测分为基于节点、基于边、基于子图和基于全图四类。 近年来,基于深度神经网络进行图异常检测成为新近研 究热点,陈波冯等人[17] 从静态图和动态图角度出发,全 面概括了基于深度神经网络的图异常检测的研究现状, 并总结了图异常检测的实际应用场景和相关数据集。

表 1 系统梳理了现有的图异常检测综述。尽管已 有上述众多的图异常检测综述,但大多数文献都基于技 术角度,目前仍然缺少针对某一应用领域的图异常检测 研究进展进行系统深入的梳理和总结。以往的工作或 从技术层面对所有的图异常检测算法进行分类总结,或集中于某一类型的网络进行归纳分析。本文聚焦于金 融欺诈检测领域,旨在对此应用背景下的图异常检测算 法研究进展进行系统的梳理和总结,深入探讨应用 GBAD进行欺诈检测的关键问题、技术方法和未来挑战。

图异常检测在个体反欺诈中的应用

基于图的个体反欺诈可以抽象为给定网络数据,从 中查找异常的节点或边。面向个体的欺诈检测又可以 分为基于结构特征的方法、基于邻近性的方法、基于图 表示学习的方法以及基于社团划分的方法。基于图的个体欺诈检测方法可以分为基于特征的 欺诈检测、基于邻近性的欺诈检测、基于图表示学习的 欺诈检测以及基于社团划分的欺诈检测。 早期的个体欺诈检测方法主要从图的特征提取出 发,在新构造的特征空间中进行异常检测,包括基于结 构特征的方法和基于邻近性的方法。前者利用提取的 图结构特征表征正常行为模式,显著偏离正常模式的被 视为可疑个体。后者利用网络的结构信息量化节点间 的邻近度,邻近度高的节点被认为是同一类(正常或欺 诈)。基于特征的图异常检测中,图结构的表征是关键, 值得注意的是,不同的金融场景以及欺诈手段下,特征 选择各有差异,需要专家根据业务场景和已知的欺诈活 动慎重设计。因此,该方法的性能高度依赖于人类专家 的干预,可扩展性差;并且图特征仅考虑网络的浅层拓 扑结构,无法捕捉节点间的非线性关系。 图表示学习是将图数据映射到低维向量空间的有 效技术,它可以捕捉节点间的非线性关系以获得更有效 的潜在表示,支持下游的欺诈检测任务,能够很好地解 决传统图特征方法可扩展性差的问题。现有的图表示 学习多基于深度学习,导致该类方法的可解释性较差, 将其运用在欺诈检测上往往使得检测结果难以直观理解。目前,对基于图表示学习方法的可解释性仍是学术 界的研究难点和热点。 基于社团划分的方法旨在挖掘复杂网络中一类特 殊的欺诈节点——桥接节点,桥接节点不直接属于某一 社团,在不同社团之间起着桥梁作用,例如信贷欺诈中 的黑产中介。值得注意的是,这类方法应用的前提是网 络中连接多个社团的桥接节点是欺诈节点,因此在网络 构建时,应结合实际欺诈场景定义节点和边,使其满足 这个前提。

图异常检测在群体反欺诈中的应用

相较于个人欺诈,团伙欺诈的波及范围更广,社会 危害性也更高,呈现“智能化、产业化、攻击迅速隐蔽、内 外勾结比例上升和移动端高发”五大特征,例如,在信贷 领域,黑中介和黑产出现深度融合的态势,开始以团伙 形式开展线上贷款申请审批业务,骗取大量资金。检测 这种虚假的用户社区(也称为组或集群)已经成为一个 关键的焦点。基于图的团伙反欺诈旨在挖掘由异常活动导致的 具有不寻常结构的特定子图,这些子结构通常显著偏离 正常模式,如稠密子图、稠密子张量、频繁子图或其他特 定的连接模式。不寻常子图的定义通常与欺诈检测问 题高度相关,包括基于稠密子图的欺诈检测、基于稠密 子张量的欺诈检测、基于深层网络结构的欺诈检测以及 基于频繁子图的欺诈检测。 网络中联系紧密的子图往往表明异常或欺诈行为, 可以通过稠密子图或稠密子张量挖掘进行有效检测,两 者的基本思想相似:首先定义稠密度指标,然后采用搜 索策略进行度量指标优化以识别欺诈用户群体,其关键 在于稠密度的定义。前者基于二维网络数据进行研究,往往造成数据的缺失。而稠密子张量的方法使用多模 数据对网络进行建模,支持从更高的数据维度进行用户 行为分析,有效提升欺诈检测的准确性。不足的是,此 类方法通过设计各种密度度量进行稠密子图(子张量) 挖掘,仅考虑网络的浅层拓扑结构,无法捕捉节点间的 非线性关系。 基于深层网络结构的欺诈检测通过深度网络嵌入 学习节点的潜在表示,将网络结构信息编码在一个连续 的向量空间中,然后利用聚类算法在潜在空间中找到高 密度区域。此方法通过图嵌入对原始网络进行降维处 理,可以拓展到大规模复杂网络的欺诈检测,有效解决 传统检测算法带来的维数灾难。

不同的复杂网络的欺诈定义和检测方法不同,应根 据复杂网络的具体应用场景以及侧重的特征选择合适 的异常检测方法。欺诈检测方法的分类汇总如表4。

成为VIP会员查看完整内容
47

相关内容

「因果机器学习」前沿进展最新综述
专知会员服务
83+阅读 · 2023年1月17日
「图神经网络复杂图挖掘」 的研究进展
专知会员服务
74+阅读 · 2022年10月23日
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
医学知识图谱构建关键技术及研究进展
专知会员服务
43+阅读 · 2022年4月27日
图神经网络前沿进展与应用
专知会员服务
146+阅读 · 2022年1月24日
基于深度学习的图异常检测技术综述
专知会员服务
83+阅读 · 2021年7月28日
异质信息网络分析与应用综述,软件学报-北京邮电大学
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
「图神经网络复杂图挖掘」 的研究进展
专知
1+阅读 · 2022年10月23日
图谱实战 | 图数据库技术在金融风控中的应用
开放知识图谱
4+阅读 · 2022年8月24日
金融反欺诈的底层逻辑
人人都是产品经理
1+阅读 · 2022年3月23日
面向任务型的对话系统研究进展
专知
0+阅读 · 2021年11月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年1月18日
Arxiv
0+阅读 · 2023年1月17日
Arxiv
11+阅读 · 2021年3月25日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
Arxiv
11+阅读 · 2018年10月17日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
「因果机器学习」前沿进展最新综述
专知会员服务
83+阅读 · 2023年1月17日
「图神经网络复杂图挖掘」 的研究进展
专知会员服务
74+阅读 · 2022年10月23日
「新一代知识图谱关键技术」最新2022进展综述
专知会员服务
192+阅读 · 2022年9月3日
医学知识图谱构建关键技术及研究进展
专知会员服务
43+阅读 · 2022年4月27日
图神经网络前沿进展与应用
专知会员服务
146+阅读 · 2022年1月24日
基于深度学习的图异常检测技术综述
专知会员服务
83+阅读 · 2021年7月28日
异质信息网络分析与应用综述,软件学报-北京邮电大学
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员