摘要—图异常检测(Graph Anomaly Detection, GAD)旨在识别异常的图实例(例如节点、边、子图或图),由于其在广泛应用中的重要性,近年来备受关注。深度学习方法,特别是图神经网络(Graph Neural Networks, GNNs),由于其强大的能力能够捕捉图数据中的复杂结构和/或节点属性,已成为GAD领域中一种有前景的范式。鉴于大量基于GNN的GAD方法的提出,总结现有GAD研究中的方法和发现,对于定位有效的模型设计来解决GAD中的开放性问题至关重要。为此,本文旨在对深度学习方法在GAD中的应用进行全面综述。现有的GAD综述主要集中在特定任务的讨论上,使得理解现有方法的技术见解及其在应对GAD中的一些独特挑战时的局限性变得困难。为了填补这一空白,我们首先讨论了GAD问题的复杂性及其带来的挑战,随后从方法学的三个新颖视角——GNN主干设计、GAD代理任务设计以及图异常度量,系统性地回顾了当前的深度GAD方法。为了加深讨论,我们进一步提出了一个包含13个细化方法类别的分类体系,从这三个视角提供了对模型设计及其能力的更深入见解。为促进GAD方法的实验和验证,我们还总结了常用的GAD数据集以及在这些数据集上的经验性能对比。最后,我们讨论了多个GAD中的重要开放性研究问题,以激发该领域未来更多高质量的研究。持续更新的GAD数据集库、GAD算法代码链接和经验对比可在 https://github.com/mala-lab/Awesome-Deep-Graph-Anomaly-Detection 获取。
关键词—图异常检测,图神经网络,深度学习,异常检测,图表示学习
1 引言
图异常检测(Graph Anomaly Detection, GAD)旨在识别不符合正常模式的图实例(如节点、边、子图和图)。这是一个活跃的研究领域,广泛应用于检测各种图/网络数据中的异常实例,例如在线用户网络中的滥用用户行为、金融网络中的欺诈活动以及社交网络中的垃圾信息。此外,由于数据样本之间的关系可以建模为相似性图,人们也可以利用GAD方法在任何数据对象集上发现异常(只要可以使用适当的成对相似性函数)。由于图结构的复杂性,传统的异常检测方法无法直接应用于图数据。近年来,图神经网络(Graph Neural Networks, GNNs)在通过捕捉结构模式建模和学习图的表示方面表现出了有前景的能力,激发了大量基于GNN的GAD方法的提出。然而,流行的GNN设计,例如节点表示的聚合和优化目标,可能导致过度平滑,使正常和异常图实例的表示无法区分,极大地限制了其在实际应用中的使用。针对这些挑战,许多专门为GAD设计的新颖GNN方法已经被提出。在本工作中,为了总结当前的方法和发现,我们提供了一个系统且全面的深度GAD技术综述,并讨论这些技术如何应对GAD中的各种挑战。我们还提出了多个GAD中的重要开放研究问题,以激发该领域未来的更多研究。**相关综述。**近年来已经有几篇关于异常检测的综述,例如[2],[4],[81],[89],[103],[113],但其中大多数集中在非深度学习方法上[2],[4],[103],或是一般数据而非图数据[7],[89]。研究[81],[113]涉及深度GAD,但综述的视角较为狭窄。例如,Ma等人[81]专注于特定任务的讨论,对技术发展的综述有限,而Liu等人[64]和Tang等人[113]则分别专注于建立无监督和有监督GAD方法的性能基准。另一篇相关工作是Liu等人[71],但其局限于有监督的不平衡图学习。尽管这些综述为GAD方法的发展提供了有益的指导,但难以理解现有方法的技术见解及其在解决GAD独特挑战时的局限性。**我们的工作。**为了填补这一空白,我们旨在提供一个独特的GAD综述,讨论这些技术见解、局限性以及该重要领域未来的研究机会。具体而言,我们首先讨论了GAD问题的复杂性及其带来的独特挑战。然后,我们从三个新颖的视角系统回顾了当前的深度GAD方法,包括GNN主干设计、GAD的代理任务设计和图异常度量。为了加深讨论,我们进一步提出了一个涵盖13个细化方法类别的分类体系,从这三个视角提供了对模型设计及其能力的更深入见解。为了促进GAD方法的实验和验证,我们还总结了常用的GAD数据集以及在这些数据集上的经验性能对比。表1总结了我们的工作与相关综述的对比。总之,我们的主要贡献如下:
本综述提供了对GAD问题复杂性及其带来独特挑战的重要见解(第2节)。
我们引入了当前深度GAD方法的新颖分类体系,从GNN主干设计、GAD代理任务设计和图异常度量的三个技术设计视角提供了深入理解(第3节)。
然后,我们在这三个视角下引入了13个细化方法类别,以提供对模型设计(即关键直觉、假设、学习目标、优缺点)及其应对GAD独特挑战能力的更深入见解(第4、5、6节)。
我们进一步讨论了多个GAD中的重要未来研究方向,这些方向涉及大量未解决的开放问题,这些问题的解决将为应对GAD中的独特挑战开辟新的机会(第7节)。
我们还总结了来自13个类别的许多代表性深度GAD方法以及大量GAD基准数据集,并进一步提供了这些数据集上的定量对比结果(附录A、B和C)。
深度GAD方法的分类为了促进对GAD研究进展的全面理解,我们引入了一个新的分类体系,将当前的GAD方法分为三大类,包括GNN主干设计、GAD代理任务设计和图异常度量,具体取决于每种方法所提供的技术见解。这使我们能够从三个不同的技术视角对GAD方法进行回顾。为了详细阐述每个视角中的见解,我们进一步将这些方法细分为13个小类。分类体系的概述如图1所示。更具体地说,常规的GNN无法直接应用于GAD,因为前述的复杂问题,因此有一类研究专注于为GAD设计合适的GNN主干。根据GNN中不同模块的改进,GNN主干的设计可以分为判别式GNN和生成式GNN。第二大类方法是通过优化一系列精心设计的学习目标函数构建GAD模型,从而形成代理任务,指导GAD模型在不需要真实标签的情况下捕捉多样的图异常/正常模式。根据代理任务的建模,这类方法可以进一步分为五个子类别。最后,还有一类方法是基于专门为图数据设计的异常度量来构建GAD模型。这类方法根据所使用的图异常度量类型,可以进一步分为四个子类别。附录A的表2中总结了每种GAD方法类型的代表性算法。
结论
在本综述中,我们首先讨论了GAD的复杂性及现存的挑战。随后,我们从三个新视角提出了深度GAD方法的新颖分类体系,包括GNN主干设计、代理任务和图异常度量。我们进一步通过讨论这些视角中的细化方法类别,深化了对每个视角的探讨。在每个细化方法类别中,我们不仅回顾了相关的GAD方法,还分析了它们的基本假设、优缺点及其在应对GAD独特挑战中的能力。最后,我们讨论了GAD未来研究中的六个重要方向。通过解决这些方向中的问题,我们预计将产生更多先进的方法来应对实际生活中的GAD问题。