导读 随着大语言模型(LLM)的快速发展,Transformer 架构在自然语言、视频、音频处理上表现突出,大模型技术正在赋能千行万业。大模型+图模型相遇又会发生什么?大模型时代下图机器学习该如何做?这是我们需要思考的问题。本次分享是由北京邮电大学石川教授团队带来的图基础模型初探。文章将深入探讨图基础模型(Graph Foundation Model 简称 GFM)的概念、特点、发展历程。主要内容包括以下几大部分:
01
图基础模型****
1. 基础模型概念基础模型是一种在广泛的数据上训练且可以被应用于多种下游任务的模型。这一概念最初在 21 年由斯坦福大学提出。基础模型已在语言、视觉、语音等领域展现出强大的实力,并逐渐成为这些领域的核心力量。基础模型通过在大规模数据集上进行预训练,积累了丰富的知识和能力,从而能够轻松应对各种下游任务。在语言领域,大语言模型已成为主导,传统的语言处理任务几乎已被其全面取代。同样,在视觉和语音领域,基础模型也发挥着举足轻重的作用。它们不仅提升了任务处理的效率和准确性,更为我们打开了通往更广阔应用前景的大门。基础模型的崛起,标志着人工智能领域正迎来一个全新的发展时代。****
2. 基础模型特点****
基础模型具备两大鲜明特点:涌现与同质化。首先,涌现是指随着基础模型规模的扩大,参数量不断增加,模型的能力有可能出现质的飞跃,自发地展现出一些新颖的功能。这种能力的突变使得模型在处理任务时更加高效和灵活。其次,同质化则体现在模型的多功能性上。基础模型能够广泛部署于各种应用场景中,一个模型就能解决多种问题。尤其在语言模型领域,这种同质化特点表现得尤为突出。过去,自然语言处理领域需要针对二三十种甚至更多的不同任务设计相应的模型,而现在,一个大语言模型就能轻松应对翻译、抽取、生成、问答等各种任务。这种变化是机器学习领域前所未有的,也充分展示了基础模型同质化的强大优势。****
**3. ****大语言模型(LLM)**大语言模型,无疑是基础模型中的璀璨明星。它拥有令人瞩目的庞大参数量,从昔日的 ELMO 百万参数模型,一路疾驰,发展到如今 GPT4 的万亿参数规模,展现出了强大的预训练语言处理能力。这种模型不仅具备理解、生成文本的基础功能,更拥有出色的逻辑推断和记忆能力,可谓是人工智能领域的全能选手。大语言模型在通用人工智能领域展现出了巨大的潜力和广阔的应用前景。它不仅能够智能涌现出各种答案,还能巧妙运用同义词进行表达,使得语言处理更加自然流畅。无论是回答复杂问题、创作文学作品,还是进行逻辑推理、记忆检索,大语言模型都能游刃有余地应对,成为通用人工智能的有效实现方式。
4. 图的基本概念****
图或网络,作为一种通用语言,用于描述和建模复杂系统。在系统中,点和边代表各种交互关系。无论是社交网络、金融网络还是生物医药网络,只要存在点与边之间的交互,我们都可以运用图进行建模。简言之,图是一种强大的工具,能够帮助我们理解和分析复杂系统中各元素之间的相互作用。 5. 图(机器学习)发展历史****
图,这个古老而深邃的概念,其实早在很久之前就被提出。对于图上各种任务的研究也早已开始。回溯到 1736 年,欧拉提出的格里斯堡七桥问题,被认为是图论研究的起点。自此,图论一直是数学领域的研究重点。随着计算机的兴起,图算法的研究也掀起了一股热潮。相信许多学习计算机的朋友们都熟悉迪杰斯特拉算法,这种解决最短路径问题的算法是上世纪五六十年代的研究热点之一。进入 21 世纪,随着网络科学的蓬勃发展,复杂网络与现实网络特性的研究成为了新的热点。而到了 2013 年左右,图信号处理的研究开始兴起,信号处理领域的学者们纷纷投身其中,形成了一股新的研究热潮。近年来,图嵌入和网络表示学习更是成为研究的焦点。其核心思想是将网络的结构特征用低维、紧致的向量进行表示,经历了从浅层模型到深层模型的发展历程。典型的浅层模型代表为 DeepWork,而深层模型的代表则是图神经网络 GCN。以上就是图机器学习领域的发展历程。 6. 网络表示学习****
网络表示学习是一个重要的研究方向。其核心思想是将网络中的每个节点嵌入到低维的向量空间中,从而实现对节点特征的降维。过去,我们通常使用关联矩阵来表示网络中节点的关系,但这种表示方法往往会产生高维且稀疏的向量,不利于后续的处理和分析。而现在,通过低维向量的表示,我们可以更有效地捕捉节点的内在特征,并且这种表示方式更易于进行并行化处理。学习得到的节点表示具有广泛的应用价值。它们可以被直接用于各种经典的机器学习问题,如节点分类、链接预测和社群发现等。通过使用这些低维特征表示,我们可以更加高效和准确地进行这些任务的处理,从而推动图机器学习在实际应用中的进一步发展****
7. 图机器学习的发展与分类**(1)浅层模型①基于矩阵分解**
浅层模型方面,具有代表性的是基于矩阵分解的方法。这种方法在矩阵论中属于经典的研究问题,它为我们提供了一种有效的手段来处理和解析复杂的数据结构。通过矩阵分解,我们能够更深入地理解数据的内在规律和特性,为后续的机器学习任务提供有力的支持。②基于随机游走****
近年来,基于随机游走的方法在图网络表示学习中备受关注。这些方法实际上借鉴了自然语言处理中的 Word2Vec 等表示学习模型。它们的核心思想是,通过模拟图中的随机游走过程,认为在游走序列中相邻的节点应该具有相近的表示。这类方法可以有效地捕捉图中节点的上下文信息,从而生成低维且富含语义信息的节点向量表示。这种表示方式不仅有助于提升节点分类、链接预测等任务的性能,还为我们提供了一种深入理解图结构的新视角。(2)深层模型①基于自动编码器****
基于自动编码机的方法,通过编码-解码的过程,实现了对网络结构的复原。具体来说,它首先通过编码器将网络节点映射到低维向量空间,然后通过解码器尝试恢复原始的网络结构。在这个过程中,中间结果即编码后的向量表示,可以视为节点的特征表达。这种方法不仅能够有效地捕捉节点的内在特征,还能够保持网络的拓扑结构信息,为后续的机器学习任务提供了有力的支持。②基于图神经网络(GNN)****
基于图神经网络(GNN)的方法在网络表示学习中具有重要地位。它认为一个节点的表示应当与其邻居节点的表示接近,因此采用聚合机制来生成网络表示。这种机制通过聚合邻居节点的信息,使得节点的表示能够充分反映其局部网络结构,进而提升网络表示的质量和准确性。这种方法不仅有助于我们更深入地理解网络数据的内在规律和特性,还为后续的机器学习任务提供了强大的支持。****
8. 当图模型遇到大模型**(1)大模型解决不了图的问题**
大模型解决不了图的问题,原因主要有两方面:首先,大模型难以建模图结构语义。大模型主要用于处理序列结构的数据,而图是一种非欧结构,不存在序列,一个节点可以连接任意多个邻居,是动态变化的。所以从模型本质来看,大模型无法胜任图任务。另外,大模型也难以处理多样的图任务。(2)图模型不具备大模型的能力
图模型也不具备大模型的能力。图模型表达能力有限,还存在过平滑、过压缩的问题,无法做成深层模型,并且也不具备涌现能力、难以支持多任务。 9. 图基础模型大模型和图模型无法解决彼此的问题,因此提出了图基础模型。图基础模型(Graph Foundation Model 简称 GFM)是一个在广泛的图数据上预训练的模型,适用于不同的下游图任务。 图基础模型预期拥有两个主要特点:涌现和同质化。
10. 图基础模型的关键技术图基础模型的关键技术包括两个方面:预训练技术和适配技术。
11. 图基础模型与语言基础模型比较
相似性:相同的愿景目标和相似的学习范式差异性:数据和任务的独特性;技术的差异性。02****
相关工作进展******1. 图模型类别******
目前没有关于设计和实现图基础模型的明确解决方案,但已有相关探索。基于对图神经网络(GNNs)和大型语言模型(LLMs)的依赖,现有探索可以分为三类:基于 GNN 的模型、基于 LLM 的模型和基于 GNN+LLM 的模型。****2. 基于 GNN 的模型旨在通过对 GNN 的模型架构、预训练和适配方面的创新来增强现有的图学习能力。主要方向包括:
3. 基于 LLM 的模型以 LLM 为基础,将图转化为文本(Text)或标记(Token)的方式,探索将 LLM 用作图基础模型的可行性。
4. 基于 GNN+LLM的模型结合 GNN 和 LLM,探索二者之间协同作用的方式,增强图学习的能力。
03****
我们团队的工作****接下来介绍我们在图基础模型方面的三项探索。 **************1. PT-HGNN(KDD 2021)******该工作是利用同尺度对比学习(Same-Scale CL)和 Vanilla Fine-Tuning(Vanilla FT)策略作为自适应方法,来提高异构图神经网络的表达能力。 PT-HGNN 的动机在于如何对异质图进行预训练,以保留其结构和语义特性,用于对大规模图数据的处理。异质图是包含不同类型节点和边的图结构,能够更精准地刻画复杂交互系统。网络模式(network schema)是对图中节点间交互模式的一种描述。元路径(meta path)是指连接两个节点的关系序列,揭示了节点间是通过何种路径在图中进行连接的。在异质图领域,我们已开展了大量工作,并在工业界取得了良好的应用效果。如果对这部分内容感兴趣,可以查阅相关材料。 PT-HGNN 的基本思想是:
实验情况如下:
从以上数据可以看到,相比其他预训练模型,PT-HGNN 的性能有着显著提升。 我们还验证了其知识迁移能力,即在一个领域做训练,在另一个领域做预测。从上图中可以看到,计算机与材料、工程、化学的相关性是比较强的,但与艺术领域的关联性是很弱的,是负关联。通过知识迁移实验发现,结构相关的情况下知识迁移会表现较好。结构越相关,知识迁移能力的提升越明显。这也说明了结构知识的迁移是一件很困难的事情。2. Specformer (ICLR 2023)
图神经网络可以分为两大类:空域(spatial)和谱域(spectral)。Spatial GNNs:在图神经网络的上下文中,空间域通常指的是图的几何结构或拓扑结构,即节点的连接方式。Graph Transformers 通过考虑节点的邻居信息来工作,这本质上是在图的结构空间上进行操作。Spectral GNNs:谱域指的是利用图谱的特性,如拉普拉斯矩阵的特征值和特征向量,来分析和处理图数据。 Graph Transformer 已经应用于空域中,还未用于谱域。目前的谱域 GNN 仅使用图谱中的特征值,忽略了特征值的集合信息,但集合信息也是很重要的。因此我们希望能够利用 Transformer 中的全连接注意力来捕获集合信息。 Specformer 的基本思想是利用 Transofrmer 刻画特征值之间的依赖,学习一个表达能力强的图滤波器,用于图卷积。图神经网络通常利用图的拉普拉斯矩阵的特征值和特征向量来捕获图的全局结构信息,而 Transformer 通过自注意力机制能够处理长距离依赖关系。特征值编码:Specformer 通过特征值编码(Eigenvalue Encoding)来捕捉图的谱信息。这一步骤将图的拉普拉斯矩阵的特征值转换成相对信息,为后续的 Transformer 编码器提供输入。Transformer 编码器:利用 Transformer 编码器来处理经过编码的谱信息。Transformer 编码器能够处理排列不变的特性,并且可以通过自注意力机制捕捉不同特征值之间的依赖关系。通道级解码器:Specformer 引入了一个通道级解码器(Channel-wise Decoder),它不仅学习新的特征值,而且构建新的图滤波器(Graph Filters)。这些图滤波器能够用于图卷积操作,增强模型对图结构的捕捉能力。图卷积的改进:通过学习到的图滤波器,Specformer 能够执行更复杂的图卷积操作,这可能提高图神经网络在各种图任务上的性能。端到端学习:Specformer 支持端到端的学习,即模型可以从原始图数据中自动学习到有用的特征表示,而不需要手动设计特征。 编码部分,将特征值编码与 Transformer 结合起来,意味着在图神经网络中使用 Transformer 架构来处理经过特征值编码的节点表示。这样的结合可能旨在利用 Transformer 的强大能力来捕捉图结构中的复杂关系,同时保持对图的谱特性的敏感性。 解码部分,Channel-wise Processing:Decoder 可以为每个通道(Channel)独立地学习新的特征值,这意味着它可以为图的每个特征通道生成定制的滤波器。Learning New Eigenvalues:通过自注意力机制,Decoder 能够捕捉不同特征值之间的关系,并学习新的特征值集合。Constructing New Graph Filters:利用学习到的特征值,Decoder 构建新的图滤波器,这些滤波器能够更有效地捕捉图数据的谱域特性。 合成数据(节点回归)实验结果显示 Specformer 具有很好的性能。 真实数据上,Specformer 也比现有模型效果更优。 Specformer 具有更好的可解释性。Specformer 通过其 Transformer 架构的自注意力机制:
下面介绍的 GraphTranslator 属于图基础模型三种技术中的第三类,即图模型与大语言模型相结合。这一工作的动机为:
我们提出了一个新的框架来使图模型与 LLM 保持一致,称为 Graph Translator。
Translator:旨在通过将嵌入的学习节点转换为令牌表示来对齐 GM 和 LLM。
Producer:我们使用 LLM 来构建具有思维链(COT)的高质量描述文本。 训练步骤如下图所示:
第一阶段,可以利用图转换器来处理图数据,其中图转换器采用了 Transformer 架构,将图视为完全连接的结构,从而考虑和衡量图中每对节点之间的相似性。相比之下,消息传递机制在图的邻接矩阵约束下运作,只在显式连接的节点之间传播信息。这种方法使得图转换器能够具有长距离建模能力和强大的表达能力,特别在分子预测任务中表现出了有效的结果。
第二阶段,通常会进一步优化和改进图转换器的性能,包括引入更复杂的模型结构、调整超参数、增加训练数据量等方法。这些改进旨在提高图翻译器在处理图数据时的准确性、泛化能力和效率,从而更好地应对现实世界中复杂的图数据任务。这一阶段的工作通常需要深入的实验和分析,以确保所做的改进能够有效地提升图翻译器的性能。
在淘宝和 ArXiv 数据集上进行了零样本场景下的实验,可以看到 GraphTranslor 有着显著的提升。****
还在淘宝数据集中进行了 QA 实验。GraphTranslator 能够更好地捕捉用户及其朋友的偏好,从而给出更准确、更丰富的回答。04
总结与展望我们在图机器学习方面做了非常多的工作,对学习机制、不同类型数据、如何增强鲁棒性、可信性等方面进行了深入研究和大量探索,并尝试将图神经网络应用到安全和推荐等领域,在很多实际业务中取得了很好的效果。关于图基础模型,我们发表了一篇文章,欢迎大家阅读。 目前,图基础模型还是一个比较新的概念,未来仍有广泛的探索空间。主要的一些研究方向包括: 1. 提升数据量与数据质量
提升数据的量与质量,用于图增强、特征增强、标签增强,以及为基于 LLM 的模型设计增强方案。 **2. 改进骨干架构和训练策略******改进骨干架构和训练策略,提高性能和可解释性,利用知识蒸馏和模型编辑等方法。
3. 模型评估和杀手级应用****
模型评估,寻找杀手级应用,包括人工评估、元评估,使模型能够在药物发现、城市计算等领域发挥不可替代的作用。05
问答环节******Q1****:****提高模型可解释性,有哪些方向。**A1:提升模型的可解释性,特别图神经网络的可解释性,是一个很重要的问题,但是目前做得并不是太好,因为可解释性是一个很主观的东西。我认为提升可解释性主要包括几个方面:
**A11:图结构的非欧特性跟文本的序列结构和图的网格结构,本质上是不一样的,因此也产生了它独特的分析方法,不是自然语言或 CV(机器视觉)的方法能够直接解决的。这也体现了图机器学习社区存在的价值。目前的大语言模型(LLM)基本上摧毁了 NLP,也让 CV 领域受到了极大的冲击。相对来说对图机器学习对图模型虽然有一些影响,但影响还没那么大,这也给我们留下了更大的发展空间。以上就是本次分享的内容,谢谢大家。
分享嘉宾
INTRODUCTION
石川
北京邮电大学
教授
石川,北京邮电大学计算机学院教授、博士研究生导师、智能通信软件与多媒体北京市重点实验室副主任。主要研究方向: 数据挖掘、机器学习、人工智能和大数据分析。近 5 年以第一作者或通讯作者在 CCF A 类期刊和会议发表论文 60 余篇,中英文专著五部,谷歌学术引用过万,连续入选爱思唯尔高被引学者;授权发明专利 30 余项,相关研究成果应用于阿里、蚂蚁、腾讯、华为、美团等公司。研究成果获得中国电子学会科技进步一等奖和北京市科学技术奖自然科学二等奖等奖励。