基于大模型的图学习

2024年9月21日，2024第二届人工智能大模型技术高峰论坛在江苏南京举办，论坛同期举办的《可信安全高效大模型技术专题论坛》上，国防科技大学计算机学院刘新旺教授分享了《基于大模型的图学习》精彩演讲。

以下为演讲内容：

1 图学习研究背景

图通常可以定义为节点集合和边集合，其中，节点表示图中的实体；边表示节点之间的关系。图数据与图像和自然语言最大的区别，它是非欧几里得数据，即不能用固定的卷积或算子对它进行操作，因为它的邻居或者结构是非固定的，一个节点可能有非常多的边，所以处理过程相对来说比较困难。

由于图天然具备建模多样化关系的能力，所以在具有复杂关系的任务上应用十分广泛。比如，典型的结构化场景中的社交网络、知识图谱、推荐系统等任务离不开图的建模，非结构化场景中的目标检测、问答、关系抽取等任务中也经常利用图的特性。如目标检测任务中有很多工作是通过场景图来建模图片中的上下文关系，从而实现更好的识别性能。

图学习传统的研究方向主要集中在聚类分析的理论、方法及应用。针对多元数据的多样性、非全性、可学性，主要研究里面的多视图聚类的融合机理、有效填补缺失方法和自动学习聚类特征。

**2 **多视图聚类的融合机理

多视图聚类的融合机理方面我们提出了由对抗学习所引导产生的极大 - 极小优化，实现多视图聚类的新范式。通过对抗学习的机制，改变传统的 min-min 或者 max-max 的学习机制，使所提出的学习算法能够有理论化的全局最优性。此外，基于采样和锚点选取，以及逼近的方式，实现了高效率多核聚类算法，提升了聚类算法处理缺失数据的计算效率，将复杂度从 𝓞（N 3 ）降为 O(N) 的线性复杂度，通过这种方式实现更紧的额外风险理论上界。比如，在医疗体检过程中很难保证数据完备的情况下怎么快速实现数据填充，以及在缺失情况下的特征学习和表示学习，我们提出了一系列工作，提升了聚类算法处理缺失数据的计算效率，实现了填充和聚类的复杂度是 O(N) 的精度；同时分析了算法的泛化误差界，从理论上保证了有效性。

在深度聚类方面，我们首次从理论和实验上证明了深度判别式无监督学习中的在群点优势，并提出了首个深度离群点检测的自监督学习框架，实现了有效的深度离群点检测。以往研究主要针对邻接矩阵和核矩阵这两个相对核心观点，它们与图数据之间有很多相同地方，比如给定任何一个邻接矩阵或者核矩阵可以和一个无向图相对应，而图数据由于其关系的引入，尤其在语义信息引入的情况下，它的信息量相比于传统的邻接矩阵和核矩阵又有质的飞跃。因为语义信息的引入在原来核矩阵和邻接矩阵只能表示数据结构和数据特征的条件下引入了更加丰富的语义信息，而随着大语言模型 (LLMs) 的提出，尤其模型在语言能力、推理能力方面展现较以往的方法非常大的性能提升情况下，我们也积极将研究范围从传统的机器学习向基于 LLMs 的图学习进行拓展。

**3 **知识图谱学习

目前，人工智能发展慢慢从感知时代向认知时代迈进，而在认知时代如何度量知识和应用知识，以及提升系统的智能性、泛化性成为重要的研究问题。

知识图谱推理旨在基于已知逻辑规则推导出新的事实。如图 1 所示，我们第一个在不同图类型上，针对知识图谱推理模型进行了整理工作，其中整理了 221 个前沿 KGR 模型及 69 个数据集，发现静态图谱推理、时序图谱推理、多模态图谱推理有较多的研究，且这三个方向结合知识图谱和知识推理进行相应推理的趋势非常明显。此研究成果，题为 A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multi-Modal 的文章已在 TPAMI’24 上发表。

图 1 知识图谱推理

大模型是一种知识参数化的存储形式，即知识以参数的形式存储在 Transformer 模型中；而图谱是一种知识的结构化存储形式，它通过节点和边的形式把知识进行存储。这两种知识存储的优缺点非常明显，LLMs 很灵活，具有很强的语义理解能力和交互能力；而知识图谱相对而言虽然难以构建，处理比较固定，但是稳定性、推理能力等方面具有很大优势。

3.1 关系关联锚点增强的知识图谱补全方法

我们尝试将大语言模式与知识图谱这两种结构化和参数化的知识存储形式进行融合，提升各自的性能。其中，关系关联锚点增强的知识图谱补全（RAA-KGC）方法中，试图将 LLMs 作为上下文的一种存储形式，通过大语言模式提升上下文信息，辅助知识图谱推理任务。在知识图谱推理任务中，图谱主要提供上下文信息，与以往的自然语言问答较显著的区别就是它没有对于答案的显示描述，只能通过提供头实体的关系预测尾实体。例如欧洲具有哪些部分？当遇到这个问题时很难有一个直观的概念，到底指的是欧洲有哪些国家还是地理位置等信息，没有明确方向。要使链接预测任务具有更好的下游节点预测效果。因此，我们提出将目标实体作为锚定的形式，指引增强方法对尾节点的表达能力。比如给出一些范例，如欧洲的组成部分有葡萄牙国家，接下来做类似任务时就容易构建，只要找到欧洲的其他国家即实现了更好的链接预测。

基于上述思想，提出了锚点的构建方法、锚点的聚类方法，以及网络的设计方法，实现所提算法，并在多个数据集上证明了RAA-KGC性能的有效性。

此外应用中，针对知识图谱问答的任务，因为LLMs 具有任务编排器的作用，所以希望能将输入的自然语言变成知识图谱的一种查询语句，且具有一定的泛化性能；也就是输入任何自然语言都能很快实现知识图谱信息查询。由此，通过从知识库中检索具体的语义信息可以很好地缓解事实性的幻觉。

如何实现上述所述结果？例如，如果检索“巴塞罗那球队比赛过的场地有哪些可以参观”，要把这句话转成知识图谱的检索语句，首先要定位到“巴塞罗那”这支球队；再定位到它在哪些地方打过比赛，这些地方又有哪些位于巴塞罗那；最后通过一系列程序化的检索语句，即实现最终信息的提取。这是复杂知识库知识图谱的检索方法，但是，它与以往的数据相比有较明显的问题。比如，我们可以获取的数据量较小，如何在少量数据的情况下通过数据增强的方式实现更大规模的数据集的构建。

3.2 主动数据增强的复杂知识库问答方法

“自然语言和程序对”是相对来说比较“冷门”的研究方向，难点为在实现“自然语言和程序对”匹配机制的同时，还要在一定程度保证正确率。然而，这些高质量的标注数据通常难以自动化生成，需要专业人员的手动标注，导致真实场景下的标注数据往往是有限的。

为了在此场景下进一步提升问答模型的总体性能，我们通过采用主动学习策略选择性生成类似于验证集中代表性错误样本的合成对，提出一种难度感知主动数据增强的复杂问答方法（DADA-CQA），总体框架主要由两个处理阶段组成。如图 2（a）所示，在迭代训练阶段，使用预处理的原始训练集和合成数据集来训练语义解析器；在训练过程中，利用基于难度感知主动数据增强的合成对生成模块，有选择地生成大量有价值的合成对，用于下一个回合的模型训练。如图 2（b）所示，在模型推理阶段，首先使用核采样为每个测试问题生成多个候选程序；然后，对其进行参数对齐和程序过滤处理后，将保留下来的有效候选程序提交给基于加权投票机制的投票排序器 Voting Ranker 进行答案一致性评估，以进一步提高答案准确率。

图 2 DADA-CQA 的总体框架

采用主动学习的方法时，首先在训练过程中找到分类容易错误的样本，基于它们生成问题模板，在模板基础上结合知识图谱库中的已有知识替换其中一部分；然后提取代码的核心结构，构建部分可换的基于图谱的新的训练数据生成模式和生成范式。通过聚类学习错误样本的典型数据，同时通过图谱加强的典型代表程序的生成范式来生成语义一致的训练数据。

我们在大规模复杂问答数据集 KQA Pro 上开展了广泛实验，并在全监督 (full training set) 和低资源(10 K training set) 设置下验证了方法的有效性，证明所提方法能够给很多算法带来性能提升，以及泛化性能。

3.3 基于大模型的测试时训练框架

目前，图神经网络（GNNs）面临着一些挑战，如特征表达能力有限，GNNs 通常使用较低质量的嵌入作为节点初始特征，限制了它们表达复杂节点信息的能力；此外，在结构信息与文本信息的整合中，对于包含丰富文本信息的图，如何有效地结合结构信息和文本信息仍是一个挑战。

LLMs与GNNs的结合可以产生强大的协同效应，如增强了节点特征，提供更高质量的节点特征，有效捕捉文本和上下文信息；结构信息与文本理解的融合，GNNs 擅长捕捉结构关系，而 LLMs 擅长处理文本，两者结合可以实现更全面和强大的图学习。

具体地，不管是传统的 GNNs 处理方法还是Tanrsformer 都要解决的是对未知数据甚至其他领域数据的迁移问题。应对迁移数据时，因为 LLMs在很多数据集上都有过训练，所以在各类型的数据集上都有训练经验，针对图模型和传统模型很好的信息补充。我们利用 LLMs 作为节点注释器，整合 LLMs 和 GNNs 的优势，利用极小的成本实现对于预训练模型的测试时训练微调。将 LLMs 作为图数据、GNNs 学习标签的生成方式，通过这种方式验证语言模型生成标签的准确率。这里 GNNs 主要有两个作用，一是如果要对数据进行标注进行引导，它具有更好的多样性；二是将把握不好的数据进行数据标注和数据增强，提升其他领域数据的泛化性能。

我们在 4 种不同偏移类型的 5 个不同规模的节点分类数据集上验证了方法的有效性。

近年来，以 Transformer、BERT 和 GPT 为代表的 LLMs 取得了显著进展。这些模型不仅在各种自然语言处理任务(如情感分析、机器翻译和文本分类)中表现出色，还展现出了强大的迁移学习能力。随着研究的深入，越来越多的学者开始探索 LLMs 的多模态能力，尝试将其应用于处理图像、视频和图数据等多种类型的数据，为图大模型的诞生奠定了基础。

3.4 聚类算法与基于大模型的推荐系统

推荐系统则是另外一种图数据常见的场景，通过分析用户的行为和偏好，为用户提供个性化内容或产品技术，广泛应用于电商、社交媒体、影视音乐等领域。以 GPT 为代表的 LLMs 展现了强智能性，具有强大的理解能力和语义知识。传统的推荐系统多依赖于协同过滤等方法，处理数据稀疏性、冷启动问题存在局限。LLMs 的引入为解决这些问题提供了新思路。

例如，如果把 LLMs 中关于用户的商品知识嵌套正在使用的图模型中，如图 3 所示，LLMs 所学到的特征分布和图模型所学到的特征分布有较明显的分布差异，因为图数据是通过三元组至少是二元组的方式，而自然语言没有结构性的概念。

图 3 特征分布

为了更好地实现在 LLMs 和图模型进行知识蒸馏，把 LLMs 的知识嵌入到用于推荐的图模型中，我们设计了在两个模型中信息对齐的方式，同时在 LLMs 和图模型中设计公有信息和私有信息，通过在公有信息队做到信息对齐，实现 LLMs 只将图模型的迁移。针对 LLMs 和推荐模型在训练输入、训练过程、语义表示等方面存在显著差异，直接对齐二者存在的弊端，首先通过设计正交损失和均匀性损失来保证解耦合之后独有特征和共享特征的有效性，避免其退化为噪声特征；其次基于共享特征，分别构建 LLMs 和推荐模型特征的相似度矩阵作为全局相似度图，从全局角度迁移共享的大模型知识；此外，通过聚类分别获取 LLM 和推荐模型特征空间下的 user-item 的兴趣中心，将这些兴趣中心视为局部信息，在局部进行对齐策略，实现了这两个模型的对齐，保证信息提取的有效性，以及模型信息迁移的流畅性。

从实验结果看，所设计的解耦对齐框架可以提升 baseline 的推荐水平；此外作为一种插入式的方法，在多个方法和数据集上体现出了一定的泛化能力；同时消融实验和敏感性分析实验也说明了策略的有效性。

3.5 图聚类增强的联邦学习后门防御算法

在图聚类增强的联邦学习后门防御算法中，我们主要针对联邦学习这种大模型常用的训练方法。在该场景下，去中心化和数据不可控性加剧了安全威胁，其中一种重要的威胁形式就是后门攻击。尤其大模型时代，模型规模相比之前的体量大很多，如果直接针对数据模型计算它们之间的相似度，判断某个模态是否为后门攻击难度会大很多，也就是所谓的维度诅咒问题。

为了更好实现后门的检索，提出将多视图聚类的方法和后门攻击进行组合，即通过多视图聚类将不同部分的代码进行聚类，学习得到它的数据低维表示，构建多个对于同一代码的不同描述，丰富更新的参数，更加准确地描述对应的代码，用更小的时间开销取得更好的效果。从与其他防御算法的对比可以看出，本算法具备客户端筛选机制，利用了历史信息，无需客户端保存辅助数据，也不需要添加噪声，并能够有效消除后门影响。

鉴于大模型的参数量较大，我们采用分层提取参数特征的方式来描述客户端属性，并通过属性图画客户端之间的关系；然后利用图聚类算法学习客户端的低维嵌入表示，识别出恶意客户端。

实验结果表明，此算法能在保证时间开销一定的情况下取得比以往算法更好的效果，同时空间开销上也会有更好的表现。

3.6 聚类引导的高效图表示学习

传统的知识图谱表示学习模型通常对图中的实体、关系和事实三元组进行浅层编码。具体来说，传统方法将知识图谱中的实体映射到 N×d 的向量空间中，其中 N 是实体的数量、d 为特征维度。然而，模型在索引实体时，其浅查找方式导致存储嵌入矩阵的内存消耗随实体数量线性增长，导致计算成本很高。针对这个问题，我们利用聚类质心的代表性和知识图谱中关系类型的描述能力，设计了一种新型基于锚点的知识图谱表示学习模型，采用了基于关系聚类的锚点选择策略。

在聚类引导的高效图表示学习任务中，将聚类方法同样引入到图学习任务中。具体地，对关系事实的特征而不是实体进行聚类，其中簇数自然设置为关系类型的数量，这是因为每个事实都可以通过知识图谱中的关系来表征；随后，在聚类中心周围选择代表性三元组，进一步将其映射到相应的锚实体中完成锚点选择；最后，只有锚点参与 GNNs 的特征传播和聚合，因此能够提高训练效率。这是我们首次在知识图谱映射任务中应用这个锚点构建的方式提升训练和测试效率，也是第一个在本领域中使用三元组的形式构建锚点。

我们在 4 个链路预测数据集和 2 个实体分类数据集上，分别验证了方法的有效性和高效性。

4 大模型小型化——思维链蒸馏

思维链是一种激发大模型产生中间思考过程，从而增强大模型对复杂问题拆解能力的提示词（prompt）设计方式。根据以往研究表明，思维链是参数量超过 100 B 才会出现的涌现能力。而参数超过 100 B，意味着很多资源受限场景都无法受益于思维链带来的解决复杂问题的优势。因此，一些研究人员提出了思维链蒸馏，并认为，在特定的任务上思维方式往往固定，小模型经过大模型的指导能一定程度上掌握对复杂问题拆解的能力。

现有的思维链蒸馏方法主要分为预思考和前缀机制两类。二者本质相同，即先通过 prompt 设计，获取大模型对于问题的思考过程；然后，利用这一思考方式作为除了标签 / 答案之外额外的监督信息，训练小模型对于问题也产生对应的思考。不同之处在于，预思考在蒸馏时将思考过程与答案放在同一生成序列中，而前缀机制则通过不同的前缀来提示模型生成答案还是思考过程，因此思考过程与答案不在同一生成序列。

对于预思考，由于它将思考过程放在答案前进行生成，善于将复杂问题拆解为简单子问题，如图 4 所示的第二个问题。但是图 4 所示的第一个问题，当思考过程中出现微小的错误（见图中下划线部分）时会显著影响答案的生成。而对于前缀机制而言，由于思考过程与答案不在同一生成序列，因此思考过程与答案间不具备上下文约束，所以常常出现思考过程和答案相悖的情况。

图 4 预思考

基于以上分析，我们提出了一种自适应学习机制。首先提出了一种与后预思考相对的后思考蒸馏方式，它将思考过程放在答案的后面进行生成，即思考过程将充当对答案的解释作用。这种思考过程和答案顺序的调整，可以带来两个好处。

（1）增加对难例样本的学习能力。这是因为当模型在训练过程中输出错误答案时，其输出的思考过程作为解释会企图从一些奇怪的角度来解释这个错误答案的合理性，从而相比于在正确答案上的解释，小模型在错误答案上的解释与大模型提供的正确思考之间分布差距更大，最终造成在错误样本上的损失函数要远大于正确样本。因此，这种错误放大功能使得小模型在学习时可以增加对难例样本的学习注意力。

（2）由于思考过程在答案后生成，因此，思考过程中的微小错误也不会影响答案的正确性。

后思考虽然具备以上优势，但是它可能丢失了预思考对复杂问题拆解为简单子问题的天然能力。因此，受人类思考方式的启发（简单问题答案脱口而出，复杂问题先思考再回答），我们通过在感知模块中对问题复杂度进行感知，然后根据感知生成 soft prompt token 来提示模型进行预思考和后思考，从而实现了预思考和后思考的优势结合。

此机制在 12 个推理任务（数学计算、常识推理等）、2 个不同结构的语言模型上，验证了方法的有效性。

5 未来挑战

目前受 LLMs 的启发，已经有少量工作开始探索图基座模型在涌现能力上的可能性，具体围绕与预训练等在 LLMs 中实现涌现能力的关键步骤展开。但是，基础模型的涌现能力通常仅存在于具有海量参数的的骨干网络中，如文章 Towards Graph Foundation Models: A Survey and Beyon; Scaling Laws for Neural Language Models 显示，OpenAI 的性能随模型参数、数据量增加而增加的现象（见图5）。然而，GNNs 往往参数较少，意味着在未来图基座模型的骨干网络可能需要重新设计。

图 5 模型性能随参数、数据量增加而升高

由于图数据通常包含丰富的文本信息，所以，目前主流的方法还是将LLMs作为图基座模型使用。这些方法主要采用两种形式：①在 LLM 中编码通过 GNN 作为结构编码器将图编码为 LLM 的输入token；②在 transformer 骨干网络中，引入图的结构编码信息。但是，这些方法仍然不是用 LLM 直接处理图结构信息，会造成一定的信息损失，无法有效地建模图结构。例如，我们采用任务、语义驱动的图聚类算法针对图 6 所示的四幅图像，通过语义描述或任务理解动态选择适合的特征可能每个人都会有不同的结果，如根据背景对这些数据进行聚类，第一幅和第二幅属于一类，因为它们都在草地上；而根据动物种类进行聚类，可能第一幅和第三幅是一类。即每次聚类过程中任务和导向都不同，如何通过任务自适应训练与当前任务最为匹配的特征进行聚类？因此，探索在 LLM 中更好地建模图结构是未来研究的重要挑战。

图 6 图聚类

（参考文献略）

刘新旺

国防科技大学计算机学院教授、国家杰青 / 优青获得者。主要研究兴趣包括机器学习、数据挖掘等。发表 CCF A 类及 IEEE Trans. 论文 200 余篇，谷歌学术引用近 2 万次，入选2022—2023 年度全球 2% 顶尖科学家榜单。曾 2 次获得湖南省自然科学一等奖。IEEE TNNLS 等期刊 AE，多次担任 ICML、NeurIPS 等顶会资深程序委员 / 领域主席。

选自《中国人工智能学会通讯》 2024年第14卷第12期大模型技术专栏