对比学习作为一种自监督式的深度学习范式,在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受 这些成功的对比学习模型的启发,近年来大量研究者尝试将其拓展到图数据上,这为推动图对比学习的发展提供 了坚实的基础。该领域现有的综述主要关注于传统的图自监督学习任务,而缺少对图对比学习方法的梳理和归 纳。为了更好地帮助相关领域的研究者,该文梳理了近些年来的图对比学习模型,通过将现有工作归纳到一个统 一的框架下,突出其发展脉络。最后该文总结了图对比学习常用的数据集和评价指标,并展望了该领域未来的发 展方向。
1 引言
图数据是一种描述物体和物体之间关联关系的 抽象数据类型,它广泛存在于各个领域。例如,在社 交网络中,用户和用户之间的关注关系构成了社交 关系图;在化学领域,原子和它们之间的化学键构成 了化合物分子图;在物流领域,城市和它们之间的道 路构成了交通路网图[1-2]。作为实际场景中最常见 的信息载体,图数据蕴含着丰富信息,因此对图数据 的分析研究具有重要的价值。能否很好地感知与理 解图数据,从中挖掘有用的信息,是解决很多实际问 题的关键。例如,链接预测、节点分类、社区发现、推 荐 系 统、新 药 发 现 等 都 是 与 图 数 据 相 关 的 实 际问题[1-2]。 传统的图数据分析通常采用监督学习的框架,即 通过人为特征提取或端到端图深度学习模型将图数 据作为输入,经过训练后,挖掘图数据中的有效信息, 输出预测结果[3-4]。虽然这类图监督学习方法在很多 任务上取得了显著成功,但仍面临着以下问题:①依 赖大量的人工标注数据;②由于过拟合导致泛化能 力差以及面向标签相关的攻击时模型鲁棒性差[5]。 为了解决上述问题,不依赖于人工标注的自监 督学习正在成为图深度学习的趋势[1-2,6-7]。其中,对 比学习是一类重要的自监督学习方法,随着其在计 算机视觉、自然语言处理等领域取得成功[8],如何将 对比学习应用在图数据上,开始受到研究者的关注。 图数据比语音、文本、图像更加复杂,如何设计有效 的图对比学习模型仍面临着诸多挑战。
为了更好地帮助该领域的发展,已有研究者梳 理了近些年来关于图自监督学习的相关工作,并且 形成综述[5,7,9-10]。但这些综述主要关注传统的图上 自监督任务,并没有针对图对比学习的方法进行详 细的梳理和分类。本文主要关注图对比学习模型, 收集整理了近些年图对比学习的工作。同时本文在 统一的框架下对比现有的方法,突出现有工作的异 同点及其发展脉络,从而帮助研究者更好地梳理现 有工作,期望能激发对图对比学习方法新的思考。 本文组织结构如下:第1节介绍图对比学习问 题及其涉及的相关背景知识,并给出形式化定义; 第2节梳理了节点级的图对比学习方法;第3节整 理了边级别的图对比学习;第4节整理了图级别的 图对比学习方法;第5节整理介绍了将图对比学习 应用在更复杂场景下的拓展;第6节总结了常用的 评价数据集和评价指标;第7节分析整理了图对比 学习现存的问题和未来可能的发展方向;最后一节 对全文进行了总结。
1 问题定义和相关背景
对比学习是一种判别式的学习方法,其目的是 让相似的样本学到相近的表示,同时让不相似样本 的表示互相远离。对比学习在文本[19]、语音[20]、图 像[21-25]等领域取得了显著的效果提升,受到了广泛 关注。对比学习在这些领域取得成功,为研究者设 计图对比学习的框架打下了坚实的基础。 图对比学习期望学到一个编码模型,使得相似 的节点(图)经过编码模型后得到相似的表示,不相 似的节点(图)得到差异较大的表示。现有的方法可 以总结成一个统一的框架,如图1所示,首先定义正 负例并利用正例生成器和负例生成器分别得到正负 样本。接着将这些样本输入到编码模型后得到对应 的表示。最后设计一个将正负样本表示区分开的损 失函数,进行参数优化。 目前的图对比学习方法在设计时主要关注:① 正负例的定义与产生方式;②编码模型的架构;③损 失函数的形式。我们在图1中用虚线框出了这三 部分。应用图对比学习的典型范式如图2所示,包括 无监督表示学习、无监督预训练、辅助学习三种方 式[6]。其中,无监督表示学习和无监督预训练是两 阶段的训练范式,辅助学习是一阶段联合优化的训 练范式。无监督表示学习利用对比学习为每个节点 (或图)学习向量表示。接着固定这些表示作为输入 去训练模型解决下游任务。无监督预训练范式,同 样先用对比学习无监督地学习一个编码器。但在解 决下游任务时,不仅利用标签信息更新预测层的参 数,同时也微调编码器的参数。辅助学习范式是指 在主任务损失函数的基础上添加对比学习损失作为 正则项,联合优化这两项损失函数进行参数更新。
2 节点级图对比学习方法
正负例 的 定 义 是 现 有 的 图 对 比 学 习 方 法 关 键,不同的定 义 方 式 需 要 不 同 的 编 码 模 型 和 损 失 函数。根据对比类型可以将现有方法分成实例对 比和跨级别对比两类。实例对比是指同一个样本 的不同增强 样 本 之 间 的 对 比,跨 级 别 对 比 是 指 不 同 级 别 对 象 之 间 的 对 比,例 如,节 点 级 对 象 和 子 图级对 象 的 对 比。 同 时,对 于 每 一 个 模 型,将 从 正负例的 定 义 与 产 生 方 式 以 及 损 失 函 数 的 形 式 两个方 面 进 行 介 绍。 表 1 总 结 了 本 节 介 绍 的 图 对比学习框架,并且 对 比 了 不 同 模 型 使 用 的 增 强 方式。
3 边级别图对比学习
在现实的图中,节点往往表现出同质性,即在图中 相近的节点往往具有相似的性质[1]。例如,存在引用 关系的论文往往属于同一个领域;在社交网络中两个 用户共同好友越多,他们是好友关系的可能性就越高。
4 图级别图对比学习
图级别的对比学习框架在近些年来也受到了广 泛的关注,其在生物、化学、医药领域发挥了关键的 作用。但该领域处于刚起步的节点,因此相比于节 点级的对比学习,图级别对比学习的研究工作相对 较少。 You等人[53]提出的 GraphCL是将基于实例的 节点级图对比学习框架应用到图级别对比学习上的 典型模型,其框架如图13所示。
5 图对比学习的拓展
前文介绍 了 同 质 网 络 上 的 图 对 比 学 习 框 架, 而现实中的 图 数 据 往 往 具 有 复 杂 的 结 构,无 法 直 接应用上述的图对比学习模型。因此一些研究者 开始将 图 对 比 学 习 拓 展 到 不 同 类 型 的 图 上。 此 外,在实际场景中往往会伴随着监督信息,如何将 图对比学习框架和监督信息结合也是一个重要的 拓展方向。
6 图对比学习方法的评价
不同的图对比学习方法的优劣,往往通过其在 下游任务上的表现来评判。常见的下游任务在1.4 节中已经进行了说明,本节主要介绍常用的节点级 任务的数据集和图级任务的数据集以及评价指标。
7 挑战与未来展望
图对比学习框架在节点级任务、边级任务和图 级任务上都取得了成功,但目前仍有如下一些问题 待解决。
7.1 图增强操作
图数据的增强是图对比学习框架中非常重要的 组成部分,其为节点/图提供了更加丰富的上下文信 息,从而帮助节点/图学到更优质的表示。在图像领 域,可以比较容易地确定增强后的图片仍然与原图 片反映同一类别的物体。由于图数据本身就是一种 抽象的数据结构,应用现有的增强操作(如增边删 边,隐藏部分特征维度)后,难以直观判断原来的节 点/图是否保持类别不变。因此设计增强后类别保 持不变的图增强操作是未来重要的发展方向。此外 如何判断哪种数据增强的方式是对于对比学习有效 的,也是一个重要方向。已有工作试图寻找在图像 领域哪种增强是有效的[68],但在图领域仍然等待被 探索。
7.2 基于图对比学习的预训练模型
预训练旨在通过自监督学习从大量数据中学到 通用的语义信息,并将学到的知识迁移到下游的任 务中。目前预训练模型在很多领域都取得了最佳的 效果,具有巨大的发展潜力。图对比学习方法为图 上的大规模预训练奠定了很好的框架基础。 然而,现有的图对比学习主要关注于在同一图 上模型迁移到下游任务上的效果[34,35,39-42,52]。这些 模型未考虑模型跨数据集迁移的能力。虽然近年来 有研究提出了具有一定跨数据迁移能力的图对比学 习模型[45],但该方法只适用于没有属性的同质信息 网络,局限性较大。因此如何设计具有跨数据集迁 移能力的图对比学习模型是未来大规模图预训练应 用中亟待解决的重要问题。
7.3 对比学习的理论分析
虽然对比学习的框架在很多领域都取得了显著的提升,但是该框架为何能提升表示的质量,以及其 和下游任务之间有什么关联、什么样的对比任务更 有效等仍然值得探索。虽然在图像领域有工作开始 分析对比学习有效的原因[69-70],但在图数据领域的 理论分析仍然是空白的。
7.4 实际场景的应用
如何将图对比学习应用在实际场景中提升实际 任务的效果,也是一个潜力巨大的方向。目前有研 究者尝试在推荐系统[71-73]、药物分类[74-75]领域利用 图对比学习解决某些关键问题。因此,如何利用图 对比学习解决更多实际的图分析问题是具有重大研 究意义的方向。
7.5 大规模图上对比学习
现有的图对比学习往往需要大量的负样本,才 能学好节点/图表示。但在实际的场景中,图的规模 往往非常的巨大。因此大量的负样本需要巨大的内 存和计算代价。在图像领域已经有一些工作去探索 如何利用更少的负样本[76],或者不使用负样本的方 式来减少计算代价[46,77]。因此如何设计适用于大 规模网络的图对比学习也是未来发展方向之一。
7.6 更公平的方法对比
本文从方法上对比了不同图对比学习框架的异 同。但由于不同模型适用的数据集不同,实验设定 上也有差异,从而导致难以从实验结果上判定哪个 框架更有效。但是从实验上对比不同模型的优劣对 于图对比学习的发展有着至关重要的作用。因此设 计一个基准实验框架,更公平地对比不同方法也是 一个重要的方向。
8 结束语
基于深度学习的图分析方法在很多任务上取得 显著的效果,而做好节点/图表示是其中的关键。近 年来基于对比学习的表示学习框架在图像等领域取 得了成功,这为图对比学习框架提供了坚实的基础。 本文对近年来出现的图对比学习框架进行了分析总 结,将图对比学习框架总结成三个重要的部分,分别 是正负例的定义方式、编码器模型的设计以及损失 函数的设计三个部分。 本文围绕图对比学习展开,梳理总结了近些年 来重要的图对比学习工作,同时提出了一些仍未被 很好解决的问题,以及未来可能的研究方向,尝试为研究人员建立一个较完整的研究视图,希望能为进 一步推进该领域的研究提供一定的帮助。