图上如何做异常分析?澳大利亚联邦大学最新《图学习异常分析:算法、应用与挑战》综述,阐述GCN/GAT/GAE等方法
异常分析是一项广泛而重要的研究任务,已经被研究了几十年。与此同时,深度学习在解决许多基于图的任务方面表现出了其能力,如节点分类、链接预测和图分类。近年来,许多研究通过扩展图学习模型来解决异常分析问题,使得基于图的异常分析技术取得了一些有益的进展。**本文对用于异常分析任务的图学习方法进行了全面的概述。根据模型架构将它们分为四类,即图卷积网络(GCN)、图注意力网络(GAT)、图自编码器(GAE)和其他图学习模型。**系统地比较了这些方法之间的差异。概述了现实世界中跨不同领域的几个基于图的异常分析应用。最后,讨论了这一快速发展领域未来可能的5个研究方向。1. 引言
异常也被称为离群点,普遍存在于各种真实世界的网络[12]中,如观点网络中的虚假评论[121]、社交网络中的假新闻[119]、协作网络中的离群成员[94,118]、交通网络中的突发人群[50]、移动网络中的社会自私节点[110]以及计算机网络中的网络入侵[24]。异常检测的研究可以追溯到20世纪60年代,几十年来一直是一个热门的研究领域。随着日益增长的需求和在不同领域的广泛应用,异常分析在数据挖掘、机器学习等领域发挥着越来越重要的作用。 随着深度学习的发展,图学习被提出,它是为应用于图结构数据的基于深度学习的模型而创造的[112,128]。由于其令人信服的性能和可解释性,近年来在各个学科中,越来越多的研究专注于利用深度图模型[99,137]进行异常检测和预测任务,而不仅仅局限于随机游走等浅层网络嵌入[40,111]。图作为一种独特的非欧氏数据结构,能够表示不同场景中的实体及其关系。然而,在将深度学习和人工智能应用于真实世界网络时,该研究方向对所有检测方法都面临着一些不可避免的问题复杂性[57,105]。
图结构不规则。与文本、序列和图像等其他规则结构化数据不同,图中的节点是无序的,并且可能具有不同的邻域,这使得图的结构不规则。因此,一些传统的深度学习架构无法直接应用,例如卷积神经网络(convolutional neural networks, CNN)中的卷积和池化操作[72]。
异构异常类。图中节点和链接的类型通常不统一,导致异质信息网络(heterogeneous information networks, HINs)的出现。HINs通常包含实体和关系之间更复杂的信息,特别是那些包含不同模态的信息[85],这对于识别特定图中不同类型的异常非常重要。
可扩展到真实世界的网络。如今,现实世界的网络(如社交网络)由数百万甚至数十亿的节点、边和属性信息组成[113]。这种大规模网络无疑增加了计算复杂度。因此,设计相对于图大小具有线性时间复杂度的可扩展模型是势在必行的。
标签稀缺性。与人工生成的图数据相比,真实世界网络的稀疏性主要有两个原因。第一个是无标度网络结构的性质,在大多数现实世界网络中,节点的度服从长尾分布[123]。另一种是在抓取数据过程中受到采集技术和隐私保护的限制。此外,由于缺乏标记数据集,设计无监督的异常检测模型变得越来越重要。
不同类型的异常。研究人员探索了几种类型的异常,如节点、边、子图和路径(如图2所示)。节点异常是指在整个图中与其他节点相比表现出异常行为的实体,例如在社交网络中传播假新闻的用户。其他类型的异常也有类似的概念和它们自己的实际应用。在这种情况下,子图异常难以检测,因为从异常子图中抽取出的子图节点可能表现出正常的行为。
**已有一系列深度异常检测研究证明,在解决上述挑战方面,其性能明显优于传统模型。**尽管采用的技术从图卷积网络(GCNs)到图自编码器(GAEs)不同,但由于现有异常的复杂性,大多数方法专注于在特定情况下检测或预测异常。目前很少有人对这些方法进行全面的总结,并清晰地分析它们如何应用于解决实际应用场景。
本综述的其余部分结构如下。第2节介绍图学习模型的表示法和初步知识,这些知识将在后续章节中使用。第3 ~ 6节将介绍异常分析方法。在第7节中,我们概述了可以用深度图模型解决的异常分析的几个实际应用,并在第8节中讨论了一些未来的研究方向和挑战。最后,我们在第9节简要总结了这个综述。
表1. 检测和预测异常的图学习模型综述
2. 基于GCN的检测方法
作为深度图模型中最流行的结构,图卷积网络(graph Convolutional Networks, GCNs)可以通过卷积操作学习和生成节点嵌入,即从节点的局部邻域聚合信息的过程。在本节中,我们介绍基于GCN的异常检测和预测方法,这也是所有异常分析模型中最流行的模型类型。根据方法是否针对特定异常检测任务设计,将其分为两类,即通用模型和任务驱动模型。图3展示了如何使用空间卷积操作检测社交网络中的异常用户的玩具模型。表3总结了这些方法的主要特点。
3. 基于GAT的检测方法
在深度图模型中,节点邻居的权重被定义为相等或默认设置。然而,邻居的重要性往往因属性和结构特征的不同而不同。受注意力机制的启发,Velivckovic等人[92]将注意力机制应用于GCN的空间卷积操作,提出了一种图注意力网络(GAT)。图4展示了注意力机制如何应用于网络欺凌检测的一个简单示例。在本节中,我们总结并介绍了使用图注意力网络的异常分析算法。该方法按照异常类型分为2个子检测,即节点异常检测和(子)图异常检测。表4总结了这些方法的主要特征。
4**. 基于GAT的检测方法**
图自动编码器(GAE)是一种用于生成低维表示的无监督结构,目的是最小化编码器的输入和解码器的输出之间的损失[91]。在本节中,我们将介绍应用于异常分析的基于GAE的算法。根据训练和学习模式的不同,将这些方法分为3类,即通用自编码器、对抗训练和超球学习。表5总结了这些方法的主要特点。在图5中,我们提出了一个基于GAE的异质网络异常引用行为检测模型