图学习在各种应用场景中发挥着关键作用,并且由于其在建模由图结构数据表示的复杂数据关系方面的有效性,已经获得了显著的关注,这些应用场景包括社交网络分析到推荐系统。实际上,现实世界中的图数据通常随着时间展现出动态性,节点属性和边结构的变化导致了严重的图数据分布偏移问题。这个问题由分布偏移的多样性和复杂性加剧,这些偏移可以显著影响图学习方法在降低的泛化和适应能力方面的性能,提出了一个对其有效性构成实质挑战的重大问题。在这篇综述中,我们提供了一个全面的回顾和总结,涵盖了解决图学习背景下分布偏移问题的最新方法、策略和见解。具体而言,根据在推断阶段分布的可观测性和在训练阶段充分监督信息的可用性,我们将现有的图学习方法分类为几个基本场景,包括图域适应学习、图离群分布学习和图持续学习。对于每个场景,都提出了详细的分类法,包括对存在的分布偏移图学习进展的具体描述和讨论。此外,我们还讨论了在分布偏移下图学习的潜在应用和未来方向,通过系统分析这一领域的当前状态。这篇综述旨在为处理图分布偏移的有效图学习算法的开发提供一般指导,并激发在这一领域的未来研究和进展。
图结构数据在各种真实世界应用领域无处不在,包括社交网络[1]、[2]、[3]、[4]、[5]、生物网络[6]、[7]、[8]、[9]、道路网络[10]、[11]、[12]以及计算机网络[13]、[14]、[15]。在这些多样化的领域中,通过边缘复杂交织的节点之间的复杂关系蕴含着实体、图结构和整体图数据模式中的宝贵信息。在这种情况下,图学习[16]技术应运而生,以更好地分析和理解各种图类型,为广泛的图相关任务提供了有希望的推理能力,涵盖了药物发现[8]、[17]、知识图探索[18]、[19]、社交网络分析[20]、[21]、推荐系统[22]、[23]和物理运动预测[24]等。
尽管流行的图学习方法取得了成功,但图数据中分布偏移的存在对当前方法的能力构成了实质性的限制[25]。这是由于真实世界图数据的动态和演化性质。例如,社交网络随着新用户的加入和关系的变化而演化,导致节点特征和边连接的显著变化,从而使得图学习模型在推荐系统或趋势分析上的性能下降[26]。在金融网络中,实体(如股票、商品或机构)之间的关系会因市场趋势、经济政策或全球事件而变化[27]、[28]。一个在历史市场数据上训练的图学习模型可能在实体之间的关系发生变化时表现不佳。在生物学中,代表蛋白质、基因或生态系统中物种相互作用的网络可能因突变、环境压力或疾病爆发而改变[29]。预测疾病传播或基因相互作用的模型必须适应这些变化。此外,交通系统(如道路网络、航空交通或公共交通系统)由于城市发展、旅行模式的变化或基础设施修改等因素而经历变化。这些变化影响了用于优化路线、预测拥堵或规划新基础设施的模型[30]。在节点、边缘和不同图中观察到的图数据的统计分布的这些变化,大大复杂化了图学习过程,为有效模型部署和在真实世界场景中的应用带来挑战。
为此,在这项工作中,我们的重点是在分布偏移的情况下进行图学习,具体指的是图数据概率分布的差异可能涵盖图组件的所有方面,包括节点特征、图结构和标签分布。因此,图学习模型在测试阶段遇到了在以前未见过的图数据分布上实现精确泛化的困难。
近年来,越来越多的兴趣集中于探索分布偏移下图学习的范式[31]、[3]、[4]、[32]、[25]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40],以使模型能够在静态和动态场景中理解图数据的复杂场景、对象和概念。具体而言,图数据分布偏移场景可以基于测试阶段的分布是否可观测以及可用的监督信息是否充分来分类。因此,它们可以分为三个主要类别,如图1所示:
观察到的偏移:已知测试阶段数据,可变监督,其中可能展示出与训练阶段不同的潜在未知分布偏移的观察到的测试阶段图数据,可用的监督可能充分或不充分
未观察到的偏移:未知测试阶段数据,限制性监督,其中未观察到的测试阶段图数据分布具有多种多样的偏移类型,可用的监督通常倾向于不充分
顺序时间偏移:时间依赖的,未观察到的数据,其中未观察到的测试阶段图数据分布随时间动态地顺序到达。
基于这三种类型的图数据分布偏移场景,在这项工作中,我们进行了全面的回顾,并提供了现有图学习方法的系统分类,这些方法应对图数据中的分布偏移学习挑战。具体来说,当前的图学习方法也可以分为三个类别,每个类别对应于特定的分布偏移场景:
图域适应学习,旨在将图学习模型从训练(源)域传递到测试(目标)域,并要求它们在具有不同图数据分布的目标域上表现出熟练的性能[31]、[41]、[42]、[3]、[43]、[4]。→ 观察到的偏移。
图离群分布学习,旨在使图学习模型能够有效地学习与训练数据分布不同的测试图数据和训练中未见的潜在新类别[44]、[25],使模型具有良好的泛化能力。→ 未观察到的偏移。
图持续学习,旨在使图学习模型能够在图数据分布发生变化时吸收新信息,同时精炼现有知识并应对新出现的和以前未见过的任务[45]、[46]。→ 顺序时间偏移。
因此,在这篇综述中,我们的目标是提供对图数据分布偏移的深入理解,并探讨解决分布偏移挑战的各种图学习模型和方法。我们将检查与分布偏移下图学习相关的关键概念、关键挑战、以前的限制和评估协议。此外,我们将讨论潜在的现实世界应用并突出这一研究领域内有希望的未来方向。据我们所知,这是第一篇关于图学习与一般分布偏移场景的全面综述。尽管如此,我们的工作与几项专注于图分布偏移特定方面的先前研究建立联系也是值得的:Li等[25]回顾了图离群分布泛化方法,而Yang等[44]回顾了图离群分布检测方法,分别是在未观察到的图数据偏移场景下的两种离群分布任务。Yuan等[45]和Febrinanto等[46]在顺序时间图数据偏移场景下回顾了图持续学习方法和基准测试。相比之下,我们的重点明显放在更广泛的分布偏移下图学习的视角上。这包括更广泛和更新鲜的方法回顾,以提供更全面的研究路线图。
我们预见这篇综述将成为对分布偏移下图学习感兴趣的研究人员和实践者的重要资源,提供对最新发展和未来研究努力的见解,并促进在模型选择、架构设计和评估策略领域的知情决策,以持续发展图学习模型,为学术和工业应用带来潜在好处。 总结来说,这项综述工作的核心贡献可以如下呈现:
广泛的图分布偏移场景。据我们所知,这是图学习领域第一篇涵盖广泛图分布偏移场景的综述工作,有助于深入理解和分析处理多样化和复杂的图数据分布偏移案例。
全面的回顾和分类法。我们提供了一个系统的分类法,涵盖了存在各种分布偏移的现有图学习进展。这个分类法包括三个关键类别:用于可观察偏移的图域适应学习,具有已知测试阶段图的;用于未观察到的偏移的图离群分布学习,具有未知测试阶段图的;以及用于顺序时间偏移的图持续学习,具有随时间演化的图的。
突出实际应用和未来方向。我们强调了图学习在解决分布偏移方面的实际用途,涵盖了从科学发现到个性化日常生活推荐的应用。此外,我们确定了几个有希望的未来研究方向,意图激励和推动这一研究领域的进步。
分类与框架
图3总结了分布偏移下图学习的一般分类法及本文回顾的相关方法。分类法围绕着偏移场景和分布偏移下图学习算法的设计细节展开。首先,根据解释的偏移场景,分布偏移下的图学习方法可以被分类为三个类别:图域适应、离群分布图学习和持续图学习。我们进一步考虑不同方法的设计细节,并以层次化的方式对它们进行分类,以便于理解和比较分析。
图域适应学习的分类法
域适应解决了由于不同域之间数据分布的差异导致模型性能下降的问题,旨在提高模型在目标域上的泛化能力。域适应方法可以进一步分为三种类型:半监督、无监督和测试时图转换。 半监督域适应。这些方法侧重于使用源域的标记数据以及源域和目标域的未标记数据训练模型,旨在确保在目标域上的强大性能。 无监督域适应。这些方法专注于在没有目标域标记数据的情况下进行模型转移。核心思想是通过特征对齐减少源域和目标域之间的特征分布差异,从而提高模型对目标域的泛化能力。 测试时图转换(适应)。这些方法围绕着在测试期间调整目标域的图数据以匹配目标域的特性,增强模型对目标域的适应性。
图离群分布学习的分类法
离群分布(OOD)图学习解决了从与训练期间看到的特征不同的图中学习的挑战。OOD图学习可以进一步分为三种类型:图离群分布泛化、图离群分布检测和开放世界图学习。 图离群分布泛化。这种类型的OOD图学习侧重于开发能够很好泛化到具有与训练中看到的不同特征的图的模型。目标是确保当面对来自以前未见过的分布的图时,模型的性能仍然令人满意。 图离群分布检测。在这个场景中,重点是识别或检测属于离群分布类别的图。目标是设计能够标记或区分与训练数据分布显著偏离的图的模型,可能表明新的或不熟悉的图模式。 开放世界图学习。开放世界图学习处理的是在可能的图类别集合事先未知的情况下进行学习的挑战。这意味着模型不仅需要适应新的图类别,还需要做出将数据分类到已知类别或识别数据属于新类别的决策。
图持续学习的分类法
持续图学习解决了从随时间到达并持续演化的图数据流中获取知识的挑战。持续图学习的方法可以进一步分为四个类别:架构方法、正则化方法、复习方法和混合方法。 架构方法。这些方法侧重于修改网络的特定架构、激活函数或算法层,以解决新任务并防止忘记之前的任务。 正则化方法。这些方法通过向损失函数添加正则化项来巩固学到的知识,限制神经权重的更新方向,以免损害先前任务的性能。 复习方法。这些方法维护一个记忆缓冲区,保存先前任务的信息,并在学习新任务时重播它以减轻灾难性遗忘。 混合方法。这些方法结合了多种持续学习方法,以利用多种方法的优势并提高模型的性能。
在这项工作中,我们对分布变化下图学习的前沿方法和方法进行了深入的回顾和综合。基于分布的可观察性和监督信息的可用性,我们将图学习方法分为图域自适应学习、图分布外学习和图持续学习,其中每种方法都有详细的分类和对当前进展的讨论。全面的分析,以及对潜在应用和未来研究方向的重点讨论,不仅为最先进的方法提供了清晰的路线图,而且还有助于阐明具有多样化和复杂分布变化的图学习技术的有效发展。