大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

以GPT-4为代表的基础模型已经在自然语言处理、计算机视觉等诸多领域引起了轰动，这也吸引着图学习领域研究者们的关注。另一方面，图机器学习经历了从浅层方法到深度学习方法的范式转变，而当前的深度图学习方法也逐渐暴露出了表达能力、泛化性不足的问题，使模型无法适用于更多的图数据和更广泛的图任务。图学习是否也会迎来“图基础模型”的下一代学习范式呢？

近日，北邮GAMMA Lab师生与国内外多名专家学者联合发布了名为“Towards Graph Foundation Models: A Survey and Beyond”的文章，探讨了图基础模型的概念、实现图基础模型的潜在方案和未来研究方向。

标题：Towards Graph Foundation Models: A Survey and Beyond 作者：Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 链接：https://arxiv.org/pdf/2310.11829.pdf

作为多种人工智能应用的基本构建块，基础模型在自然语言处理和许多其他领域都取得了显著的成功。与此同时，图机器学习也经历了一个变革性的转变，浅层方法逐渐被深度学习方法所替代。基础模型的出现和均一化能力引起了图机器学习研究者的兴趣，激发了关于开发下一代图学习范式的讨论，该范式预先在广泛的图数据上进行训练，并可以适应各种下游图任务。然而，目前还没有对这类工作的明确定义和系统分析。在本文中，我们提出了图基础模型（GFMs）的概念，并首次对其关键特征和技术进行了全面阐述。在此之后，我们根据它们对图神经网络和大型语言模型的依赖将现有的工作分类为三类。除了提供对图基础模型当前景观的全面概述外，本文还讨论了这一不断发展的领域的潜在研究方向。

简介：随着计算能力的迅猛增长和深度学习技术的突破，尤其是Transformer架构的出现，人工智能领域引入了“基础模型”的概念。基础模型是指任何在广泛数据上训练的模型，可以适应各种下游任务。基础模型的架构和训练策略的进步赋予了它们独特的特性，如涌现（Emergence）和同质化（Homogenization），使它们成为众多下游人工智能应用的主要构建模块。涌现这一术语表明，随着基础模型的扩大，它可能会自发地展现新颖的能力。同时，同质化暗示了模型的多功能性，使其能够在各种应用中部署。由于大型语言模型（LLMs）的发展，基础模型的概念首先在自然语言处理（NLP）中成为现实。从那时起，基础模型展示了惊人的多功能性，不仅可以处理文本，还可以处理图像数据、视频数据、音频数据和多模态输入。这种多功能性使它们能够在各种任务中表现出色，包括计算机视觉、音频信号处理和推荐系统等。

就像我们在自然语言处理领域所见证的演进一样，图机器学习正在经历一种范式转变。在早期阶段，图任务主要采用浅层方法，如随机游走和矩阵分解。然而，这些方法在容量上存在一定的限制，主要适用于未标记图上的转导学习。最近朝向深度学习方法的转变催生了图神经网络（GNNs）的出现。GNNs通过引入消息传递机制，使节点能够迭代地从邻居那里汇总信息，从而彻底改变了图机器学习的格局。通过在完全监督、半监督或无监督设置中利用GNNs，研究人员开创了大量定制的图模型。这些进展在节点分类、链接预测、图分类和图聚类等领域带来了显著的改进。然而，GNN模型仍然存在一些挑战。这些模型受限于表达能力和泛化性方面的问题，尤其是考虑到不断扩大的数据集和不断增加的任务范围。

基础模型在各个领域的显著成功越来越引起了图机器学习研究人员的兴趣。这自然引发了一个问题：图基础模型是否可以代表图机器学习的下一个前沿？如果实现了这些模型，它们将具有更强的表达能力、可迁移性，并适用于更复杂的图数据和任务。如图1所示，图基础模型（GFM）被构想为一个在广泛的图数据上预训练的模型，用于在不同的下游图任务中进行微调。与传统的基础模型相类似，我们期待GFM具备两个主要特征：涌现和同质化。具体而言，涌现指的是仅在大规模图模型中显现的新能力，而同质化表示模型可以适应不同类型的图任务。现有的深度图学习难以涵盖这些属性，因为它们固有的架构和学习范式专注于特定任务，这限制了对广泛的未标记数据的利用，从而限制了它们的表达和泛化能力。

图1：深度图学习和图基础模型的对比

受到大型语言模型（LLMs）在NLP中作为基础模型的成功启发，研究人员已经探索了GFMs在涌现和同质化能力方面的可能性。这些探索主要围绕GFMs的骨干架构的设计以及包括预训练和适应性在内的不同训练范式，因为它们是与实现前述能力密切相关的LLMs的关键策略。首先，基础模型的出现能力通常仅存在于具有大量参数的骨干架构中，而图神经网络的参数数量明显小于语言基础模型骨干架构的参数数量。这意味着图基础模型的骨干可能需要重新设计，以实现更多的知识存储以实现出现。由于图数据通常包含丰富的文本信息，另一种替代方法是将LLMs用作图基础模型。然而，尚不确定LLMs是否能有效处理图数据和相关任务，因此重要的是确定如何在LLMs中建模图结构。此外，基础模型的同质化要求以一种统一的方式处理各种任务。因此，在图数据中，由于互连节点的复杂性、各种形式的属性以及节点、边和图级别的任务的多样性，设计有效的代理任务和下游任务适应方法变得具有挑战性。因此，有必要设计新颖的预训练代理任务和适配方式。

表1：语言基础模型和图基础模型的关系虽然目前没有关于设计和实现图基础模型的明确解决方案，但本文调查了一些相关研究，并将它们基于对图神经网络（GNNs）和大型语言模型（LLMs）的依赖分为三种不同的方法进行了分类。(1) 基于GNN的模型：它们旨在通过对骨干架构、预训练和适配方面的创新来增强现有的图学习范式。(2) 基于LLM的模型：它们探索将图转化为文本或标记的方式，以探索将LLM用作图基础模型的可行性。(3) 基于GNN+LLM的模型：它们结合了GNNs和LLMs，并寻求探索GNNs和LLMs之间各种协同作用的方式，以赋予它们增强的能力。

图3：基于GNN的模型示意图

图5：基于LLM的模型示意图

图7：基于GNN+LLM的模型示意图

据我们所知，这是第一篇关于图基础模型的综述。现有的关于基础模型的综述通常探讨语言和视觉等不同模态，而不是图。此外，还有两篇专门针对知识图谱和大型语言模型的综述，但由于知识图谱在构建和应用上的独特性，它们超出了本文的范围。我们还注意到最近有一篇文章提到了大型图模型的概念，但它强调了意见陈述并缺乏系统的分类。因此，本文的贡献可以总结如下： • 本文首次定义了图基础模型的概念，探讨了它们能力的核心问题和特征。 • 本文引入了一种新颖的分类法，并讨论了每种方法的优势和局限性。 • 本文提供了一些图基础模型的未来发展方向。本文的后续部分组织如下。在第2节中，我们介绍与图基础模型相关的背景信息。第3节定义了图基础模型，并突出了它们与语言基础模型的相似性和差异。第4至6节深入研究了分别将基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型视为图基础模型的相关工作。第7节讨论了图基础模型的未来方向。在第8节，我们总结了本文的要点。 **图基础模型 **在本节中，我们首先将正式定义图基础模型的概念。然后，我们将讨论图数据和图任务对图基础模型的影响。最后，我们将讨论图基础模型和语言基础模型之间的相似之处和不同之处。

在本节中，我们定义了图基础模型的概念及相关技术，并将图基础模型与语言基础模型进行了比较。在接下来的部分，我们将介绍三类实现图基础模型的方法，以及每种方法的代表性作品，如图2所示。基于GNN的模型使用GNN作为主干架构，而基于LLM的模型将图转化为LLM的输入格式，并使用LLM作为主干架构。另一方面，基于GNN+LLM的模型同时使用GNN和LLM作为主干架构。主干架构的区别也影响了预训练和适应的方法。因此，在接下来的部分，我们将分别介绍每种方法的主干架构、预训练和适应策略。

**基于GNN的模型 **

得益于高效的模型架构和训练范式，语言模型在自然语言处理任务中取得了显著的性能。在语言模型中采用的主干、预训练和适应技术已经激发了一系列在基于图的任务领域的相应努力。在本节中，我们将深入探讨基于GNN的模型，这些模型从NLP中使用的模型架构或训练范式中汲取灵感，并将其应用于与图相关的任务。重要的是，与接下来几节中要介绍的基于LLM的模型和基于GNN+LLM的模型不同，基于GNN的模型在其流程中并不明确地建模文本数据。我们已经在表2中总结并分类了本节提到的工作。

基于LLM的模型

研究人员正在积极探索利用LLM作为图学习的核心和唯一的主干的方法，以下的优点不容忽视。首先，基于Transformer的模型展现了在图数据中无缝集成文本信息的卓越能力。此外，采用类似LLM的主干赋予模型统一多种图学习任务的能力，因为这些任务可以用自然语言进行描述。此外，最近的进展，如NLGraph [66]、GPT4Graph [109]，展示了LLM在初步图推理中的威力。这些优势为这类模型的发展标志了一个非常有前途的方向。为了探索将LLM纳入图学习的潜力，这些工作涉及图基属性和文本信息作为主干网络的输入。按照一些调查[16, 110]，我们对主干的描述不仅仅局限于LLMs (如GPT-3)的狭窄定义;它还包括某些利用文本信息的基于Transformer的模型。我们已在表3中总结并分类了本节提到的工作。

**基于GNN+LLM的模型 **

GNN-based模型缺乏处理文本的能力，因此不能直接基于文本数据进行预测。此外，它们也不能根据用户提供的自然语言指令进行预测。因此，探索具有大量参数的模型在与图相关的任务中的性能是至关重要的。另一方面，用于图学习的LLM-based模型有其固有的局限性。这些局限性包括LLMs无法处理精确的数学计算的能力，以及无法处理多跳逻辑推理等。这些缺点强调了在这个领域进行进一步研究和创新的必要性。为了克服这些局限性并充分利用LLMs的语言理解和GNNs的结构分析的优点，整合LLMs和GNNs可能会导致更全面和强大的模型。我们已在表4中总结并分类了本节提到的工作。

**结论 **

基础模型和图机器学习的发展催生了一个新的研究方向，目标是在广泛的图数据上进行训练并将其应用于各种下游的图任务。在这篇文章中，我们首次提出了图基础模型(GFMs)的概念，并介绍了相关的概念和代表性方法。我们根据它们对图神经网络(GNNs)和大型语言模型(LLMs)的依赖，将现有的GFMs相关工作分为三个主要类别：基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。对于每一类方法，我们分别介绍了它们的主干架构、预训练和适应策略。在对图基础模型的当前情况提供了全面的概述之后，本文还指出了这个不断发展领域的未来方向。

成为VIP会员查看完整内容