图模型也要大？清华最新《图大模型》综述

转载机器之心专栏

机器之心编辑部

在大模型时代，图机器学习面临什么样的机遇和挑战？是否存在，并该如何发展图的大模型？针对这一问题，清华大学朱文武教授团队首次提出图大模型（Large Graph Model）概念，系统总结并梳理了图大模型相关的概念、挑战和应用；进一步围绕动态性和可解释性，在动态图大模型和解耦图大模型方面取得了研究进展。

论文地址：https://arxiv.org/abs/2308.14522

一、相关概念

（一）图大模型

图大模型是指具有大量参数的图机器学习模型，具有比小模型更强大的学习能力，能更好地对图数据进行理解、分析和应用。为实现上述目标，图大模型应该具有以下四方面的核心能力：

**1. 图学习模型的规模定律（graph models with scaling law）：**规模定律是首先在大语言模型（LLM）中发现的一种经验现象，即模型性能随着规模、数据集规模和训练计算量的增加而持续提升。借鉴大语言模型的经验，图大模型应能够展现出当前小规模或中等规模图学习模型无法具备的新能力。

**2. 图基础模型（graph foundation model）：**图基础模型是指一个经过预训练的图大模型能够处理不同领域的图数据和任务。这要求图大模型能够理解图的内在结构和性能，以具备图的 “常识知识”。图预训练范式可以让模型接触大量无标签图数据，从而减少对图标签的依赖，是发展图基础模型的重要途径。此外，生成式预训练可以赋予模型生成图数据的能力，从而支持许多有重要价值的图生成应用，例如药物合成、代码生成等。尽管如此，由于图数据的通用性和多样性，目前来看为所有领域的图数据开发出一个 “通用图模型” 是几乎不可行的。因此，为不同簇的相关领域开发若干个图基础模型可能更加容易实现。

**3. 图上下文学习（in-context graph learning）：**图大模型应具有理解图上下文的能力，包括节点、边、子图和全图等，并且在上述过程中无需进行过多的模型修改或学习范式改变。该能力与图的少样本 / 零样本学习、多任务学习和图的分布外泛化能力密切相关。上下文学习能力可以使图大模型充分利用预训练阶段学习到的知识和能力，并在新数据测试中快速适应以达到预期性能。

**4. 灵活的图推理能力（versatile graph reasoning）：**虽然图数据横跨不同领域，但有一些基础图任务是共通的，我们称其为 “图推理”。目前哪些任务属于图推理并无严格的定义，下面介绍一些代表性的例子。首先，图大模型应该理解基本的图拓扑结构，如图的大小、度数、节点连通性等，它们也是处理更复杂图任务的基础。其次，图大模型应该能够进行图上的多跳推理，以考虑图的高阶信息。这种能力与大语言模型的思维链（Chain-of-Thought）异曲同工，可以增强图任务相关决策过程中的可解释性和模型透明性。除了局部信息，图大模型还应具备理解和处理全局结构和更复杂图模式相关图任务的能力，例如节点的中心度和位置信息、图的整体属性、动态图的演化规律等。

虽然图大模型有许多值得期待的能力，但目前尚未出现如 ChatGPT 一样成功的图大模型。接下来，我们将从图表征空间、图数据、图学习模型以及图应用对图大模型目前的研究进展和存在的瓶颈进行梳理。

（二）图表征空间

大语言模型可以广泛用于不同的下游任务，其背后一个重要原因在于自然语言中的单词与词元（token）属于一种通用且信息无损的数据表征方式，可以用于不同任务。相比之下，图是一种更加通用的数据结构，涵盖了不同领域。因此，以原始图数据作为输入，例如节点和边，并不总是最合适的数据表征方式。例如，在社交网络、分子图和知识图谱中，节点和边都具有不同的语义特征和拓扑空间，存在显著差异性。

之前研究中普遍认为，更高层次的图模式，可以在领域内不同的图和任务之间进行知识迁移。例如，网络科学中研究的同质性、小世界现象、节点度数的幂律分布等，均有更广泛的适用性。即便如此，如何构建有效的、能够在不同领域图数据中迁移的图大模型仍带来巨大的挑战。

此外，大语言模型另一个关键能力是能够遵循指令并与人交互，因为人类天生具备理解语言和视觉的能力。相比而言，人在处理图数据，尤其是复杂的推理问题方面，并不具备先天优势。如何与图大模型进行互动，使其可以按照期望的方式解决图任务，同样具有挑战性。为解决该问题，下面总结了三种值得探索的策略。

第一种策略是通过大量的成对数据将图和文本的表征空间进行对齐，这与目前大模型处理计算机视觉（如 DALLE 等）的方法原理类似。如果成功，我们也能够使用自然语言与图大模型进行交流，例如要求模型生成具有某些属性的分子图，或要求模型执行某些图推理任务等。目前已经有对于文本属性图（text-attributed graph）的一些初步尝试。然而，相比于图像-文本对，收集更广泛的图-文本对数据成本更高，也更具挑战性。

第二种策略是将图转化为自然语言，然后仅通过语言模型进行处理。最常见的流程是首先将图结构转化为文本表示（例如邻接表或边表），作为提示插入到大语言模型中，然后使用自然语言进行图分析。该方向近期受到了一定关注，将在后文的图模型中进行更详细的讨论。然而，将图数据和任务转化为语言时可能会丢失图的内部结构，导致模型性能目前尚无法达到预期。

最后一种策略是通过其它表征空间作为图任务和自然语言之间的桥梁。例如，尽管人类很难直观地处理图数据，但我们可以设计合适的算法来解决不同图任务，例如图论中许多著名的算法，包括最短路、动态规划等。因此，如果可以将图学习模型的运行状态与算法对齐，就能在一定程度上理解和控制图学习模型的运行状态。这个方向上同样有一些研究成果，被称为算法推理（algorithmic reasoning），值得继续探索。

总结来看，找到合适的图表征空间并与自然语言对齐，同时统一不同领域的图数据和图任务，是构建图大模型的一个基础。

（三）图数据

大模型的成功离不开大规模数据集的支撑。例如，GPT-3 在大约 5000 亿个词元的语料库上进行了预训练；多模态模型 CLIP 则在 4 亿个图像-文本对上进行了训练。更近期的大模型，例如 GPT-4，使用了更多的数据。这些自然语言和计算机视觉的大数据通常来自互联网，例如 CommonCrawl 中的网页或社交媒体中用户发布的照片，这些数据相对而言更易于规模化地收集。

相比之下，大规模图数据并不容易获取。图通常面临两类场景：大量的小规模图，如很多分子图，或者少数大规模图，如社交网络或引用网络。例如，OGB（Open Graph Benchmark）是图机器学习中最具代表性的基准数据集之一，其中最大的两个数据集，MAG240M 包含了一个大约有 2.4 亿个节点和 13 亿条边的引用网络，PCQM4M 则包含了大约 400 万个分子。尽管 OGB 已经比之前常用的图数据大了几个数量级，但它的规模可能还是远远不够。如果将 MAG240M 中的每个节点视为一个词元或将 PCQM4M 中的每个图视为一张图片，那 OGB 仍比自然语言或计算机视觉中使用的数据集小至少 1000 倍。

除了预训练所需的大规模无标注数据，带标签的基准数据集在大模型研制中同样重要，例如用于自然语言的 SuperGLUE 和 BIG-bench，用于计算机视觉的 ImageNet 等。对于图，上面介绍的 OGB 或其它图机器学习基准，例如 Benchmarking GNN，它们的规模、任务和领域多样性以及测评方式可能也不完全适合图大模型。因此，图大模型的研究应当包括设计更有针对性的基准测试数据。

（四）图学习模型（graph model）

神经网络架构

图神经网络（GNN）与图 Transformer 是两类最主流的图机器学习模型，可以从以下四个方面对两类模型进行对比：

聚合 vs. 自注意力：GNN 采用消息传递机制聚合来自相邻节点的信息，而图 Transformer 则使用自注意力来决定相邻节点的贡献。 * 建模图结构：GNN 会在消息传递过程中考虑图结构作为模型的归纳偏置，而图 Transformer 则采用结构编码等预处理策略来建模结构。 * 深度与过平滑：深层 GNN 可能会受到过平滑的影响，导致其能力下降。图 Transformer 一般则未观察到类似问题。一种可能的解释是，图 Transformer 能自适应地关注更加相关的节点，从而有效地过滤信息。 * 可扩展性和效率：大多数 GNN 的基本操作相对简单，因此计算上有优势。相比之下，图 Transformer 中节点对的自注意力机制会耗费更大量计算资源，尤其是对大规模图数据。

预训练

在大规模无标注语料上进行预训练早已成为大模型在自然语言处理和计算机视觉领域中成功不可或缺的因素。图上的预训练，或称为图自监督学习，同样获得了关注，发展出包括对比式（contrastive）与预测式（predictive）学习等多类方法，我们将其总结为图上预处理的四 E 原则：

编码（Encoding）图结构：与文本和图像数据预训练方法更关注语义信息不同，图包含丰富的结构信息。因此，预训练图大模型需要联合考虑不同图数据集上的结构和语义信息。 * 缓解（Easing）数据稀疏与标签缺乏：图大模型应具有很大的模型容量，因此容易出现过拟合，特别是在仅使用少量标注数据时。在更大规模的图数据集和不同的图任务上进行预训练可以起到正则化的作用，提高泛化性。 * 扩展（Expanding）应用领域：预训练的一个特点是能够将所学知识迁移到不同领域。通过在不同的图数据集上对图大模型进行预训练，以捕捉到更通用的结构，然后将这些知识应用、适配或微调到相似领域的图数据中，从而最大程度地提升模型的适用性。 * 提升（Enhancing）鲁棒性与泛化性：预训练可以让图大模型接触到具有不同特点的图数据，包括不同大小、结构和复杂性的图，从而使模型更加鲁棒并泛化到未见过的图数据或新的图任务。

模型适配

模型适配是将大语言模型应用到不同下游任务的重要环节，这对图大模型同样成立。代表性的模型适配技术包括提示学习（prompting）、高效参数微调（parameter-efficient fine-tuning）、模型对齐（alignment）和模型压缩（model compression）等。下面简要总结用于图模型的适配技术。

提示学习最初是指为语言模型提供特定指令，以生成下游任务所需的内容。在大模型中，如何构建有效的提示是提升其在上下文学习效果的重要途径。例如，大语言模型的提示通常包含下游任务的描述和一些示例。构建提示的一个关键在于使下游任务的形式和预训练任务一致。在自然语言中，许多不同的任务都可以被统一建模为语言模型（language model），即通过上文生成下文。相比之下，图数据的提示学习面临的一个重要挑战是如何统一不同的图任务，包括节点级、边级和图级的任务等。

高效参数微调（parameter-efficient fine-tuning）是指仅优化模型的一小部分参数，而将其余参数保持固定的一种微调技术。除了减少计算成本，它还可以通过自适应使模型能够处理新任务，同时不忘记预训练中获得的知识。近期，图模型高效参数微调也开始受到关注。

模型压缩旨在通过各种技术（包括知识蒸馏、剪枝和量化等）减少模型对硬件的需求，尤其适用于在资源受限场景中部署大模型。量化（Quantization）在大语言模型中受到了广泛关注。量化的核心是减少模型使用的数值精度，同时尽可能保持模型性能。对于大模型，训练后量化（PTQ）尤其受欢迎，因为它无需重新训练大模型。

总结来看，受到大语言模型等相关技术启发，图的模型适配研究同样吸引了一定关注。然而，由于目前尚无特别成功的图大模型，这些方法的评估局限于相对较小的图模型。因此，进一步验证它们在应用于图大模型时的有效性至关重要，也会带来更多的挑战和机遇。

图上的大语言模型

近期，一个新的研究热点是直接利用大语言模型解决图任务。其基本思想是将图数据（包括图结构和特征）以及图任务转化为自然语言表示，然后将图问题视为常规的自然语言处理问题。例如，NLGraph 对大语言模型（如 GPT-3 和 GPT-4）在八个图推理任务上进行了系统评估。这些任务涵盖了不同复杂度的问题，包括连通性、最短路径、最大流、模拟 GNN 等。实证结果发现，大语言模型在图推理方面显示出初步的能力，但在处理更复杂的图问题上存在瓶颈。

另一个代表性工作 Graph-LLM 则系统地研究了大语言模型在文本属性图中的应用。具体而言，它探索了两种策略：大语言模型作为增强器（LLMs-as-Enhancers），即使用大语言模型增强节点的文本属性表征，然后将其传递给其他图模型，例如图神经网络；大语言模型作为预测器（LLMs-as-Predictors），即直接将大语言模型用作预测器。实验结果表明，大语言模型可以为图机器学习提供巨大帮助。尽管这类研究仍处于早期阶段，但它们验证了大语言模型也是发展图大模型的一个可能途径，值得进一步探索和研究。

（五）图应用

图大模型存在许多有价值的潜在应用，包括但不限于推荐系统、知识图谱、分子建模、金融分析、代码与程序分析、城市计算与交通等。在这些领域中，目前已经出现了部分基于大语言模型的尝试，但大都忽略了图结构信息。为使图大模型在这些领域中有效应用，需要利用大量易收集的图数据，并结合领域知识，对图大模型进行相应处理，例如微调或提示学习等。

**二、研究进展 **

朱文武教授团队针对图大模型关键问题，围绕动态性和可解释性，取得了如下进展。

（一）基于大语言模型的动态图评测基准与时空解耦思维链提示

动态图，即图中信息随时间发生变化，在真实世界中非常普遍，并在交通预测、欺诈检测、序列推荐等领域具有广泛的应用。虽然之前一些工作探索了大语言模型在静态图上的能力。但大语言模型能否理解和处理动态图上的时空信息尚未被研究。相比于静态图，动态图具有更复杂的时空混合模式，因此更具挑战性，总结为如下三方面：

如何设计动态图任务以评估大语言模型理解时间和图结构信息的能力；
动态图上时间和空间维度具有复杂的相互作用，如何研究这些相互作用对模型性能的影响；
如何设计动态图和相关任务的提示，使得模型能通过自然语言建模时空信息。

针对这些问题，朱文武教授团队提出了一个 LLM4DyG，首个用于评估大语言模型在动态图上时空理解能力的评测基准。

LLM4DyG 评测基准流程图

具体而言，我们针对性地设计了九个动态图任务，从时间、空间、时空三个维度评估大语言模型的能力，这些任务包括不同的时空模式（如时空连接、时空路径和动态三角闭合等）以及三类不同的问题：“何时”(when)、“在哪”(where)、“是否”(whether)。同时，还采用了：

三种不同的数据生成方法，包括 Erdős-Rényi 模型、随机块模型和森林火灾模型； * 多种统计指标，包括时间跨度、图大小和密度等； * 四种常见的提示技术，包括零样本 / 少样本提示、零样本 / 少样本思维链提示等； * 以及五种大语言模型，包括闭源的 GPT-3.5 和开源的 Vicuna-7B、Vicuna-13B、Llama-2-13B 以及 CodeLlama-2-13B。

根据实验观察，我们进一步设计了动态图时空解耦思维链 (DST2) 提示技术，以鼓励大语言模型分别处理空间和时间信息。实验结果表明，DST2 可以有效提高大语言模型在动态图任务上的表现。

LLM4DyG 动态图任务

（二）解耦图大语言模型

文本属性图（text attributed graph）在研究与应用上均非常普遍，例如引用网络、电子商务网络和社交网络等。最近，同样有不少研究将大语言模型应用于文本属性图。然而，现有方法仅通过提示将图结构信息传递给大语言模型，导致大语言模型无法理解图内部复杂的结构关系。针对该问题，我们提出了解耦图 - 文本学习（DGTL）模型，以增强大语言模型在文本属性图上的推理和预测能力。DGTL 模型通过解耦图神经网络层将图结构信息进行编码，使大语言模型能够捕捉文本属性图中隐藏结构因子间的复杂关系。此外，DGTL 模型无需对预训练大语言模型中的参数进行微调，从而降低计算成本，并适配于不同的大语言模型。实验结果证明所提出的 DGTL 模型能达到比最先进基线模型更优或相仿的性能，同时还可以为预测结果提供基于自然语言的解释，显著提高了模型的可解释性。