异常指的是罕见的观察(例如,数据记录或事件)与其他数据有显著差异。在过去的四十年中,由于异常在许多学科(如计算机科学、化学和生物学)中的重要意义,异常研究受到了极大的关注。异常检测,旨在识别这些罕见的观察,是最重要的任务之一,并已显示出它的力量,以防止有害事件,如财务欺诈和网络入侵的发生。检测任务通常是通过检测特征空间中的离群数据点来解决的,本质上忽略了真实数据中的结构信息。图被广泛用于保存结构信息,这就提出了图异常检测问题-识别异常图对象(即节点、边和子图)。然而,由于图数据的复杂性(如结构不规则、非独立和大规模),传统的异常检测技术不能很好地解决这一问题。由于深度学习在突破这些局限方面的能力,利用深度学习进行图异常检测的研究近年来得到了加强。
在这个综述中,我们的目的是提供一个系统和全面的深度学习图异常检测的综述。具体来说,我们的分类遵循任务驱动的策略,并根据现有作品能够检测到的异常图对象对其进行分类。我们特别关注现有作品的动机、关键启示和技术细节。我们还总结了开源的实现、公共数据集和常用的评估指标,以供未来研究使用。最后,根据我们的综述结果,我们强调了12个未来的研究方向,包括图数据、异常检测和实际应用引入的新问题。
引言
1969年,Grubbs[1]首次将异常或离群值定义为“明显偏离样本中其他成员的异常值”。19世纪,统计学界开始了对异常检测的研究。在大多数情况下,异常可能表现为社交垃圾邮件发送者或社交媒体中的错误信息;社交网络中的骗子、机器人往给应用领域带来巨大的破坏。
在计算机科学中,异常检测的研究可以追溯到20世纪80年代,从那时起,在图数据上检测异常就成为了一种重要的数据挖掘范式。在过去的十年中,真实对象之间的连接的爆发和图形数据挖掘的进步已经使我们对图异常检测的识别发生了革命性的变化,在过去的5年里,这个研究领域受到了极大的关注。最显著的变化之一是,图异常检测已从严重依赖人类专家的领域知识演变为机器学习技术,以消除人类干预,最近,各种深度学习技术已被采用,以更准确和实时地识别图中的潜在异常。当代越来越多的基于深度学习的图异常检测技术已经部署到很多实际应用中,包括: 财务诈骗检测、社交垃圾邮件检测、网络入侵检测、误信息检测、工业系统损害检测等,并成功减少异常损害。因此,深度学习的图异常检测作为一项前沿技术,有望在异常检测方面产生更丰硕的成果,为每个人提供更有说服力的生活保障。
异常在不同的应用领域又称异常值、异常、特性等,是指与标准、正常或预期有显著差异的异常对象。例如,社交网络中的垃圾邮件、社交媒体中的假新闻、计算机网络中的异常流量等,都是我们日常生活中众所周知的异常现象。尽管这些对象在现实世界中很少出现,但它们包含支持下游应用的关键信息。例如,欺诈者的行为为反欺诈检测提供了证据,网络异常流量为网络入侵保护提供了信号。异常现象在很多情况下也会产生一系列的负面影响,例如社交媒体上的假新闻会误导公众的注意力[2]-[4],在线评论系统中不可信的评论会影响消费者的购物选择[5]-[7],网络入侵可能会泄露私人个人信息给黑客[8]- [11],金融欺诈会对经济系统造成巨大的破坏。事实上,异常已经受到了不同学科的研究人员的极大关注,而且最近在广泛的实际应用中检测潜在异常的需求越来越大。
异常检测是一种数据挖掘过程,目的是识别数据集[15]-[17]中偏离大多数的异常模式。异常可能以异常数据记录、消息、事件、组和/或其他意外观察的形式出现。为了检测异常,传统技术更愿意代表真实世界的对象作为特征向量(例如,新闻在社会媒体被表示为bag-of-words[18],在网页和图像表示为颜色直方图[19]),然后检测外围数据点的向量空间[20]-[23],如图1所示(一个)。尽管这些技术在表格数据格式下定位偏离数据点方面表现出强大的能力,但它们本质上抛弃了对象[24]之间的复杂关系。在现实中,许多对象之间存在着丰富的关系,可以为异常检测提供有价值的互补信息。以在线社交网络为例,可以使用正常用户的有效信息创建虚假用户,也可以通过模仿良性用户的属性[25],[26]来伪装自己。因此,虚假用户和良性用户具有相同的特征,传统的异常检测技术无法仅利用特征信息进行识别。同时,虚假用户往往会与大量的良性用户建立关系,增加自己的声誉和影响力,从而获得意想不到的好处,但良性用户很少会出现[27]这样的活动。因此,这些由虚假用户形成的紧密而意外的联系表明了他们的偏差到良性的,更全面的检测技术应该考虑这些结构信息来消化异常的偏差模式。
在社会活动、电子商务、生物、学术和通信等诸多应用领域中,用图形表示结构信息已经得到了广泛的应用。具体来说,在图中,节点/顶点表示真实的对象,边表示它们的关系。利用图中包含的结构信息,检测图中的异常在非欧空间中提出了一个更为复杂的异常检测问题——图异常检测,其目的是识别异常的图对象(即节点、边或子图)[24],[34],[35]。以图1(b)为例,在给定在线社交网络的情况下,图异常检测的目的是分别识别出异常节点(即恶意用户)、异常边缘(即异常关系)和异常子图(即恶意用户组)。因此,传统的异常检测技术不能直接用于图的异常检测,因为这些异常不能在欧几里得特征空间中直接表示,近年来研究人员加强了对图异常检测的研究。
事实上,关于图异常检测的研究工作很少。在该领域的早期工作中,检测方法大量依赖于领域专家[24],[36]-[38]建立的手工特征工程或统计模型。这本质上限制了这些技术检测未知异常的能力,而且这是非常需要人力的工作。许多机器学习技术,如矩阵分解[39]和支持向量机[40],也已经被用于检测图的异常。然而,现实世界的网络往往包含数以百万计的节点和边,这导致了非常高维和大规模的数据,这些技术不能有效地处理这些数据。实际上,它们在存储和执行时间[41]上都表现出很高的计算开销。然而,它们缺乏捕捉真实对象[23]的非线性属性的能力,因此它们学习的实体表示不够表达,无法完全支持图异常检测。
为了解决这些问题,最近的研究寻求采用深度学习技术来识别异常图对象[52]-[54]的潜力。作为数据挖掘的有力工具,深度学习在数据表示和模式识别方面取得了相当的成功,因为它的深度结构很好地解决了上述传统机器学习技术在实践中遇到的问题。最近的研究,如深度图表示学习和图神经网络(GNN),进一步丰富了深度学习对图数据挖掘[58]-[61]的能力。通过提取图形异常和正常对象的表达,或者通过深度学习技术直接学习异常的偏离模式,利用深度学习进行图形异常检测是目前异常检测的前沿技术。由于异常检测和图数据挖掘的复杂性,采用深度学习技术进行图异常检测也面临着巨大的挑战[62]-[68]。因此,我们总结了这一领域的八个主要挑战,并在附录A中提供它们。