「图对比学习」最新2023综述

对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发展方向。

1 引言

图数据是一种描述物体和物体之间关联关系的抽象数据类型,它广泛存在于各个领域。例如,在社交网络中,用户和用户之间的关注关系构成了社交关系图;在化学领域,原子和它们之间的化学键构成了化合物分子图;在物流领域,城市和它们之间的道路构成了交通路网图[1-2]。作为实际场景中最常见的信息载体,图数据蕴含着丰富信息,因此对图数据的分析研究具有重要的价值。能否很好地感知与理解图数据,从中挖掘有用的信息,是解决很多实际问题的关键。例如,链接预测、节点分类、社区发现、推荐系统、新药发现等都是与图数据相关的实际问题[1-2]。传统的图数据分析通常采用监督学习的框架,即通过人为特征提取或端到端图深度学习模型将图数据作为输入,经过训练后,挖掘图数据中的有效信息, 输出预测结果[3-4]。虽然这类图监督学习方法在很多任务上取得了显著成功,但仍面临着以下问题:①依赖大量的人工标注数据;②由于过拟合导致泛化能力差以及面向标签相关的攻击时模型鲁棒性差[5]。为了解决上述问题,不依赖于人工标注的自监督学习正在成为图深度学习的趋势[1-2,6-7]。其中,对比学习是一类重要的自监督学习方法,随着其在计算机视觉、自然语言处理等领域取得成功[8],如何将对比学习应用在图数据上,开始受到研究者的关注。图数据比语音、文本、图像更加复杂,如何设计有效的图对比学习模型仍面临着诸多挑战。

为了更好地帮助该领域的发展,已有研究者梳理了近些年来关于图自监督学习的相关工作,并且形成综述[5,7,9-10]。但这些综述主要关注传统的图上自监督任务,并没有针对图对比学习的方法进行详细的梳理和分类。本文主要关注图对比学习模型, 收集整理了近些年图对比学习的工作。同时本文在统一的框架下对比现有的方法,突出现有工作的异同点及其发展脉络,从而帮助研究者更好地梳理现有工作,期望能激发对图对比学习方法新的思考。本文组织结构如下:第1节介绍图对比学习问题及其涉及的相关背景知识,并给出形式化定义; 第2节梳理了节点级的图对比学习方法;第3节整理了边级别的图对比学习;第4节整理了图级别的图对比学习方法;第5节整理介绍了将图对比学习应用在更复杂场景下的拓展;第6节总结了常用的评价数据集和评价指标;第7节分析整理了图对比学习现存的问题和未来可能的发展方向;最后一节对全文进行了总结。

1 问题定义和相关背景

对比学习是一种判别式的学习方法,其目的是让相似的样本学到相近的表示,同时让不相似样本的表示互相远离。对比学习在文本[19]、语音[20]、图像[21-25]等领域取得了显著的效果提升,受到了广泛关注。对比学习在这些领域取得成功,为研究者设计图对比学习的框架打下了坚实的基础。图对比学习期望学到一个编码模型,使得相似的节点(图)经过编码模型后得到相似的表示,不相似的节点(图)得到差异较大的表示。现有的方法可以总结成一个统一的框架,如图1所示,首先定义正负例并利用正例生成器和负例生成器分别得到正负样本。接着将这些样本输入到编码模型后得到对应的表示。最后设计一个将正负样本表示区分开的损失函数,进行参数优化。目前的图对比学习方法在设计时主要关注:① 正负例的定义与产生方式;②编码模型的架构;③损失函数的形式。我们在图1中用虚线框出了这三部分。应用图对比学习的典型范式如图2所示,包括无监督表示学习、无监督预训练、辅助学习三种方式[6]。其中,无监督表示学习和无监督预训练是两阶段的训练范式,辅助学习是一阶段联合优化的训练范式。无监督表示学习利用对比学习为每个节点 (或图)学习向量表示。接着固定这些表示作为输入去训练模型解决下游任务。无监督预训练范式,同样先用对比学习无监督地学习一个编码器。但在解决下游任务时,不仅利用标签信息更新预测层的参数,同时也微调编码器的参数。辅助学习范式是指在主任务损失函数的基础上添加对比学习损失作为正则项,联合优化这两项损失函数进行参数更新。

2 节点级图对比学习方法

正负例的定义是现有的图对比学习方法关键,不同的定义方式需要不同的编码模型和损失函数。根据对比类型可以将现有方法分成实例对比和跨级别对比两类。实例对比是指同一个样本的不同增强样本之间的对比,跨级别对比是指不同级别对象之间的对比,例如,节点级对象和子图级对象的对比。同时,对于每一个模型,将从正负例的定义与产生方式以及损失函数的形式两个方面进行介绍。表 1 总结了本节介绍的图对比学习框架,并且对比了不同模型使用的增强方式。

3 边级别图对比学习

在现实的图中,节点往往表现出同质性,即在图中相近的节点往往具有相似的性质[1]。例如,存在引用关系的论文往往属于同一个领域;在社交网络中两个用户共同好友越多,他们是好友关系的可能性就越高。

4 图级别图对比学习

图级别的对比学习框架在近些年来也受到了广泛的关注,其在生物、化学、医药领域发挥了关键的作用。但该领域处于刚起步的节点,因此相比于节点级的对比学习,图级别对比学习的研究工作相对较少。 You等人[53]提出的 GraphCL是将基于实例的节点级图对比学习框架应用到图级别对比学习上的典型模型,其框架如图13所示。

5 图对比学习的拓展

前文介绍了同质网络上的图对比学习框架, 而现实中的图数据往往具有复杂的结构,无法直接应用上述的图对比学习模型。因此一些研究者开始将图对比学习拓展到不同类型的图上。此外,在实际场景中往往会伴随着监督信息,如何将图对比学习框架和监督信息结合也是一个重要的拓展方向。

6 图对比学习方法的评价

不同的图对比学习方法的优劣,往往通过其在下游任务上的表现来评判。常见的下游任务在1.4 节中已经进行了说明,本节主要介绍常用的节点级任务的数据集和图级任务的数据集以及评价指标。

7 挑战与未来展望

图对比学习框架在节点级任务、边级任务和图级任务上都取得了成功,但目前仍有如下一些问题待解决。

7.1 图增强操作

图数据的增强是图对比学习框架中非常重要的组成部分,其为节点/图提供了更加丰富的上下文信息,从而帮助节点/图学到更优质的表示。在图像领域,可以比较容易地确定增强后的图片仍然与原图片反映同一类别的物体。由于图数据本身就是一种抽象的数据结构,应用现有的增强操作(如增边删边,隐藏部分特征维度)后,难以直观判断原来的节点/图是否保持类别不变。因此设计增强后类别保持不变的图增强操作是未来重要的发展方向。此外如何判断哪种数据增强的方式是对于对比学习有效的,也是一个重要方向。已有工作试图寻找在图像领域哪种增强是有效的[68],但在图领域仍然等待被探索。

7.2 基于图对比学习的预训练模型

预训练旨在通过自监督学习从大量数据中学到通用的语义信息,并将学到的知识迁移到下游的任务中。目前预训练模型在很多领域都取得了最佳的效果,具有巨大的发展潜力。图对比学习方法为图上的大规模预训练奠定了很好的框架基础。然而,现有的图对比学习主要关注于在同一图上模型迁移到下游任务上的效果[34,35,39-42,52]。这些模型未考虑模型跨数据集迁移的能力。虽然近年来有研究提出了具有一定跨数据迁移能力的图对比学习模型[45],但该方法只适用于没有属性的同质信息网络,局限性较大。因此如何设计具有跨数据集迁移能力的图对比学习模型是未来大规模图预训练应用中亟待解决的重要问题。

7.3 对比学习的理论分析

虽然对比学习的框架在很多领域都取得了显著的提升,但是该框架为何能提升表示的质量,以及其和下游任务之间有什么关联、什么样的对比任务更有效等仍然值得探索。虽然在图像领域有工作开始分析对比学习有效的原因[69-70],但在图数据领域的理论分析仍然是空白的。

7.4 实际场景的应用

如何将图对比学习应用在实际场景中提升实际任务的效果,也是一个潜力巨大的方向。目前有研究者尝试在推荐系统[71-73]、药物分类[74-75]领域利用图对比学习解决某些关键问题。因此,如何利用图对比学习解决更多实际的图分析问题是具有重大研究意义的方向。

7.5 大规模图上对比学习

现有的图对比学习往往需要大量的负样本,才能学好节点/图表示。但在实际的场景中,图的规模往往非常的巨大。因此大量的负样本需要巨大的内存和计算代价。在图像领域已经有一些工作去探索如何利用更少的负样本[76],或者不使用负样本的方式来减少计算代价[46,77]。因此如何设计适用于大规模网络的图对比学习也是未来发展方向之一。

7.6 更公平的方法对比

本文从方法上对比了不同图对比学习框架的异同。但由于不同模型适用的数据集不同,实验设定上也有差异,从而导致难以从实验结果上判定哪个框架更有效。但是从实验上对比不同模型的优劣对于图对比学习的发展有着至关重要的作用。因此设计一个基准实验框架,更公平地对比不同方法也是一个重要的方向。

8 结束语

基于深度学习的图分析方法在很多任务上取得显著的效果,而做好节点/图表示是其中的关键。近年来基于对比学习的表示学习框架在图像等领域取得了成功,这为图对比学习框架提供了坚实的基础。本文对近年来出现的图对比学习框架进行了分析总结,将图对比学习框架总结成三个重要的部分,分别是正负例的定义方式、编码器模型的设计以及损失函数的设计三个部分。本文围绕图对比学习展开,梳理总结了近些年来重要的图对比学习工作,同时提出了一些仍未被很好解决的问题,以及未来可能的研究方向,尝试为研究人员建立一个较完整的研究视图,希望能为进一步推进该领域的研究提供一定的帮助。

成为VIP会员查看完整内容