图Mamba:一种强大的图嵌入技术,已成为多个领域的基石,包括生物信息学、社交网络和推荐系统。本综述是首个全面研究图Mamba的文献,旨在填补其应用、挑战和未来潜力方面的关键空白。我们首先详细解释了原始图Mamba架构,重点介绍其关键组件和基础机制。随后,我们探讨了为提升其性能和适用性所提出的最新修改和改进。为了展示图Mamba的多功能性,我们考察了其在不同领域的应用。接着,我们对图Mamba及其变种进行了比较分析,以揭示它们的独特特性和潜在应用场景。此外,我们识别了图Mamba在未来可能的应用领域,强调其在这些领域中革命性的数据分析潜力。最后,我们讨论了当前与图Mamba相关的局限性和开放研究问题。通过正视这些挑战,我们希望能够激发该领域进一步的研究与发展。本综述为新手和有经验的研究人员提供了一个宝贵的资源,帮助他们理解并充分利用图Mamba的强大能力。附加关键词: 状态空间模型、Mamba模块、图Mamba、图学习、图卷积网络、应用
1 引言
基于图的学习模型,特别是图神经网络(GNNs),近年来由于能够有效捕捉和处理复杂的关系数据而获得了显著关注。这些模型在许多领域中具有优势,尤其是当图是表示数据的典型方式时 [1]。GNNs 日益重要的原因可以归因于多个因素。图结构数据在许多现实世界的系统中广泛出现,如社交网络、分子结构和引文网络 [2, 3]。GNNs 拥有强大的能力,能够利用关系信息和实体之间的连接。此外,已经提出了不同的先进 GNN 架构,具有良好的可扩展性,能够处理大规模图数据,使其适用于大数据应用。此类学习可以应用于各种任务,包括节点分类、链路预测和图分类。然而,它们在特定场景中的有效性面临几个重大挑战。大多数 GNNs 在有效捕捉长程依赖性方面存在局限性。它们通常依赖于邻接节点之间的信息传递,这可能导致信息在多个跳跃过程中被稀释。这个限制在具有复杂层次结构的图中尤其具有挑战性。此外,许多 GNN 架构需要多轮邻域聚合,这在计算上是昂贵的,尤其是对于大规模图而言。随着层数的增加,以捕捉更复杂的模式,计算成本显著增长。此外,当应用于大图时,GNNs 通常面临内存约束和训练时间增加的问题 [4]。对于动态图,问题更加严重,因为图的结构随时间变化,需要频繁更新节点表示。为了应对这一挑战,提出了采样技术,但这可能导致信息丢失。GNN 的变种在节点或标记数量方面具有二次复杂度。当计算整个图的注意力或处理稠密图时,类似的问题也会出现。这种二次扩展性显著影响性能,并限制了这些模型在大图或长序列中的应用。确实,解决当前基于图的学习模型的局限性对于其更广泛的应用至关重要。一种有前景的方向是将状态空间模型(SSM)适应于图学习,这推动了图Mamba的开发。SSMs 是最初为控制理论和信号处理中的序列建模设计的数学模型。它们通过一组输入、输出和状态变量,使用一阶微分方程表示系统的行为。在机器学习的背景下,SSMs 可以有效建模序列数据中的长程依赖性。它们提供了一种连续时间的序列建模视角,可以受益于特定的数据类型。最近,Mamba作为一种突破性的方法出现在人工智能(AI)领域,特别作为SSM的一种专用形式,旨在解决传统深度学习(DL)模型的计算限制。标准模型,如卷积神经网络(CNNs)和变换器(Transformers),面临着与计算低效相关的重大挑战,特别是在涉及长序列建模的任务中。Mamba的主要目标是通过将时间复杂度从变换器中的二次复杂度降至线性,来提高计算效率。受结构化SSM进展的启发,Mamba 被提出以提升需要长程依赖建模和大规模数据处理的领域的性能。图Mamba 作为SSM的专门变体,专门针对图学习设计。它的主要目标是通过利用状态空间模型的独特优势,解决传统 GNN 的局限性。图Mamba的核心概念是其状态空间建模方法,通过选择性扫描,这是一种高效处理图信息的机制,能够动态聚焦于图结构中最相关的部分。这使得图Mamba能够以优越的计算性能处理大规模和复杂的图。最近,图Mamba 引起了越来越多的关注,文章数量不断增加。本综述旨在研究将图结构与 Mamba 框架结合的潜力,以增强表示学习和可扩展性。通过对现有文献和实证研究的比较分析,本综述评估了图Mamba 相对于传统机器学习(ML)方法的性能。
本节提供了来自两个研究领域的关键综述研究总结;GNN架构和Mamba框架。
GNNs 在多个领域中得到了广泛应用,包括计算机视觉、推荐系统、欺诈检测和医疗健康等。已经有几篇综合性的综述研究探讨了 GNNs。在 [5] 中,作者呈现了对 GNNs 的全面回顾,强调了它们的演变、基本概念以及这种前沿技术的多种潜在应用。GNNs 通过有效建模图结构数据中的关系,克服了传统神经网络的限制,推动了机器学习的发展。该研究描述了主要的 GNN 架构,如图卷积网络(GCNs)、图注意力网络(GATs)和图采样聚合(GraphSAGE),以及它们的消息传递机制,用于反复聚合来自邻居节点的信息。研究还探讨了在社交网络、生物学和推荐系统中的节点分类、链路预测和图分类等应用。此外,文章还回顾了常用的数据集和 Python 库,探索了可扩展性和可解释性问题,并建议了未来的研究领域,以提高 GNN 的性能,并扩展其在动态和异构图中的应用。在 [6] 中,作者提供了关于 GNNs 及其在数据挖掘和机器学习领域中的应用的全面回顾。文章讨论了图结构数据在非欧几里得领域中面临的问题,以及如何对深度学习方法进行修改以适应这种数据。作者提出了一种新的分类法,将 GNNs 分为四种类型:递归 GNNs、卷积 GNNs、图自编码器和时空 GNNs,每种类型都针对特定的图任务进行定制。该综述还考察了 GNNs 在社交网络、推荐系统和生物建模中的实际应用。此外,文章回顾了开源实现、基准数据集和在 GNN 研究中使用的评估标准。最后,作者列出了尚未解决的挑战,并提出了未来的研究话题,强调了先进 GNN 方法和应用的潜力。
自 2023 年末 Mamba 推出以来,它在深度学习社区中受到了广泛关注,因为它提供了有说服力的优势,鼓励在多个领域的应用与探索。许多综述已经展开,研究 Mamba 的潜力及其应用。例如,Patro 等人 [7] 探讨了将 SSMs 作为变换器的高效替代方案用于序列建模应用。他们将 SSMs 分为三种范式:门控、结构性和递归,并讨论了关键模型,如 S4、HiPPO 和 Mamba。该综述强调了 SSMs 在多个领域中的应用,包括自然语言处理、计算机视觉、音频和医学诊断。它还根据计算效率和基准性能对 SSMs 与变换器进行了比较。文章强调了进一步研究的需求,以提高 SSMs 在处理扩展序列时的能力,同时保持多领域应用中的高性能。Qu 等人 [8] 详细解释了 Mamba。他们将 Mamba 定位为变换器拓扑结构的一个可行替代方案,尤其是对于涉及扩展序列的任务。该综述介绍了 Mamba 的基础,强调它融合了 RNNs、变换器和 SSMs 的特点。它还考察了 Mamba 设计中的改进,包括 Mamba-1 和 Mamba-2 的创建,后者引入了选择性状态空间建模、基于 HiPPO 的记忆初始化和硬件感知计算优化方法。作者还探讨了 Mamba 在多个领域中的应用,包括自然语言处理、计算机视觉、时间序列分析和语音处理,展示了其在大规模语言建模、视频分析和医学影像等任务中的多功能性。研究指出了 Mamba 使用中的一些问题,包括上下文感知建模的限制以及效率与泛化之间的权衡。作者还提出了改进 Mamba 泛化能力和计算效率的建议,并讨论了其未来在新研究领域的应用潜力。1.2 本综述的贡献近年来,关于图Mamba的架构、改进和在各个领域应用的研究迅速增加。然而,这些见解仍分散在不同的研究中,目前尚缺乏一篇全面的综述来将这些研究成果整合起来。随着该领域的快速发展,一篇结构清晰、内容全面的综述显得愈加重要。本文综述的主要贡献如下:
1.3 论文组织
本综述提供了关于图Mamba状态空间模型的全面概述,包括其架构、应用、挑战及未来潜力。我们探讨了现有图Mamba模型的优缺点,并讨论了其未来发展的前景。本文的组织结构如下:
本节回顾了图神经网络(GNNs)和状态空间模型(SSMs)的基础知识,并探讨了它们如何在图Mamba框架中集成。
图神经网络(GNNs)作为一类强大的深度学习(DL)模型,专为图结构化数据而设计。与常规机器学习模型不同,后者通常处理固定大小的输入,如图像或序列,GNNs则专门用于处理非欧几里得数据,这些数据通过节点和边进行表示[1]。这使得GNNs非常适用于需要复杂关系数据的任务,例如社交网络、知识图谱、化学结构和推荐系统。图是本质上具有适应性的,能够表示多种数据格式。标准的深度学习模型,如卷积神经网络(CNNs),在处理网格或序列等结构化数据时表现优异,但无法推广到图数据。GNNs通过学习节点、边和图的表示,能够捕捉图的局部邻域信息和全局结构。这种方法通过节点间信息传递,使得GNNs能够有效捕捉图中局部模式和长程关系。接下来的子节将简要介绍文献中提出的一些常见GNN架构。
图卷积网络(GCNs)由Kipf等人[12]提出,是一种专门为图数据设计的GNN。其核心思想是将卷积概念(在图像处理中的网格像素操作非常有效)调整为适应图的非规则结构。与传统的卷积神经网络(CNNs)依赖静态网格不同,GCNs在每个节点上执行局部卷积,汇总来自邻近节点的信息。这使得GCNs能够理解图结构内部的连接和模式,这是传统CNN无法做到的。GCN层的传播规则表示为:
在[13]中,Velikovi等人提出了图注意力网络(GATs),这种网络旨在解决传统GNNs的一些局限性。它们特别设计用于处理复杂连接和不规则图结构。其主要创新是引入了一种注意力机制,能够选择性地从邻近节点中汇总信息,使得模型能够专注于最相关的输入。这种方法为每个邻居分配不同的权重,从而在汇总信息时强调特定节点的重要性,提高了模型捕捉有意义关系的能力。GAT层的计算如下式所示:
图采样与聚合(GraphSAGE)由Hamilton等人[13]提出,是一种适用于大规模图的可扩展GNN架构。它通过从局部邻居中采样并聚合信息来学习节点嵌入,从而使得归纳学习能够推广到未见过的节点。GraphSAGE由两个主要部分组成:嵌入生成(前向传播)和参数学习。该模型通过迭代遍历邻居层,使得节点能够从其周围环境中收集信息。节点vvv 在深度kkk 的表示更新公式如下: 3 图Mamba在本节中,我们将概述图Mamba架构。此外,我们还将讨论所使用的图结构、设计的选择性扫描方法,以及图Mamba所遵循的不同训练策略。
图Mamba是为图学习任务特别设计的状态空间模型(SSM)的子集。其架构如图1所示,旨在解决传统图神经网络(GNN)的局限性,例如计算效率低和在大规模网络中表示长程关系的困难。图Mamba的架构基于使用线性时间复杂度来表示图的能力,相比许多典型GNN中的二次复杂度更为高效。这是通过使用SSM概念,包括状态更新和潜在表示来实现的。图Mamba以递归方式处理数据,能够捕捉网络中节点之间的长期交互,而无需依赖像Transformers这样的昂贵的注意力机制。
图Mamba的基本架构由三个主要模块组成:
图Mamba框架中的底层图结构在塑造模型的数据处理和学习潜力方面至关重要。不同的图结构捕捉了不同的关系和动态。为了最大化其在多种应用中的适应性和有效性,我们将这些图结构根据它们所处理的数据性质分为三类:动态图、异构图和时空图。此分类(如图2所示)使得图Mamba能够高效地利用每种图类型的独特优势。每种分类都针对特定的应用场景,使得该模型能够应对社会网络、生物系统和时空分析等领域中的现实挑战。
动态图通过使图Mamba框架能够建模和学习随着时间变化的节点属性和边连接,增强了其功能。这些图在捕捉时间依赖关系和适应现实世界中的动态交互中起着重要作用,其中实体之间的关系是动态且时间敏感的[19]。例如,STG-Mamba [20]将空间和时间关系集成起来,以建模变化的节点属性和结构,特别适用于交通网络等地理和时间动态至关重要的应用。类似地,连续时间动态图方法[21, 22]能够适应像社交网络这样的场景,其中关系是短暂的,允许实时分析不断发展的交互。这些动态图方法展示了如何通过不断变化的图结构,在复杂且时间敏感的系统中获得更深入的见解和更强的决策能力。
异构图作为图Mamba框架的一部分,包含了多种类型的节点和边,捕捉了实体之间的多样化关系[23]。与动态图侧重于时间变化不同,异构图突出了节点和边异质性的复杂性。这种图类型使图Mamba能够有效地建模不同类型实体之间的复杂交互。在[24]中,Pan等人提出了HeteGraph-Mamba,这是一种新的异构图学习方法。他们使用一种选择性SSM,将其与图学习过程相结合。该SSSM通过选择性关注图结构中的重要特征,改进了异构数据的处理。通过利用这一异构图结构,图Mamba在建模复杂的现实世界系统方面表现出色。学习来自多个实体和关系的能力使其特别适用于需要理解多维交互的应用,如生物系统模式检测。
时空图是动态图的一种复杂类型,它随着时间发展,同时包含节点之间的空间关系。这些图表明,节点和边以及它们的属性受空间接近性和时间变化的影响[20]。例如,SpoT-Mamba [25]通过使用选择性状态空间建模捕捉长程空间和时间依赖性,从而进一步推动了图的构建。这使得该模型能够同时从图的空间结构和时间动态中学习。这些图特别适用于需要理解空间和时间依赖关系的任务,如交通流量预测、社交网络分析和天气预报等。
在图Mamba中,选择性扫描是一种设计用于并行和递归处理图结构数据的技术。该技术保留了图遍历过程中从先前阶段获得的信息节点和边状态。这种选择性扫描扩展了SSM在图领域中的概念。该方法的主要组件包括:
在机器学习(ML)范式中,采用了多种方法来训练模型,包括监督学习、半监督学习、无监督学习和自监督学习。每种策略对模型的性能、泛化能力和可扩展性都有重要影响。学习方法对模型如何拟合数据有着深远的影响。这在基于图的学习中尤其重要,因为图结构的复杂性以及可用标注数据的数量在不同领域之间有很大差异[35]。基于图的学习带来了独特的挑战,因为图通常编码了节点和边之间的复杂关系。标注数据的可用性通常是一个挑战,这促使了探索更灵活的学习方法,如半监督学习、无监督学习或自监督学习[36]。这些方法使得模型能够有效地从标注数据和未标注数据中学习,甚至从图的结构本身中学习。在以下各节中,我们将全面回顾图Mamba模型中使用的学习方法,重点介绍每种方法如何针对各种应用中的基于图的学习挑战进行定制。
监督学习是许多基于图的应用中最常用的方法,尤其是在有高质量标注数据可用的场景中[37]。在这种方法中,模型通过使用注释数据学习基于输入预测正确输出。监督学习方法允许图Mamba模型直接从标注数据中学习,其中正确的输出已被提供。这使得模型能够做出更准确的预测,因为它可以反复调整内部表示来消除错误[38]。此外,监督学习通常会导致更快的模型收敛,因为模型知道每次训练步骤应该达到什么样的输出[20]。这降低了对大量微调的需求,使得图Mamba模型能够更快速地从标注图数据中学习。
在半监督学习中,模型使用标注数据和未标注数据进行训练[39]。这种学习方法特别适用于标注数据稀缺,但未标注数据丰富的场景,这在现实世界的图数据集中是常见的情况[40]。通过结合监督学习和无监督学习的优点,半监督学习使图Mamba模型能够利用图的结构,即使在标注数据有限的情况下,也能提高预测准确性。半监督学习尤其适用于动态图或异构网络,其中节点和边之间的连接随着时间变化,且识别所有数据点可能是一个挑战[33, 41]。这种策略帮助模型通过同时使用图中标注和未标注的部分数据来提高泛化能力,从而在预测未标注节点的结果时表现更好。
自监督学习(SSL)是一种新兴的范式,其中模型从数据的内在结构中学习。在基于图的学习中,SSL已经引起了显著关注,因为它使得模型能够从图的拓扑结构和节点特征中发现有意义的模式[42-45]。为此,模型会添加一些预任务,以帮助其理解数据,然后再进行主要任务。在图Mamba模型中,SSL使得模型能够捕捉图中的长程依赖关系,而无需标注数据。这使得它在动态系统中特别有用,因为这些系统中标注数据通常稀缺或不可用。SSL还增强了图Mamba模型的可扩展性,因为它们可以在大型现实世界图数据集上进行训练,而不受标签可用性的限制[46, 47]。
无监督学习是一种强大的方法,用于发现数据中隐藏的模式或结构,而不需要标签[48]。在图Mamba模型的背景下,无监督学习被用于推导节点和边的显著表示。这些表示随后可以用于下游任务,包括图生成或分类。采用这种方法后,图Mamba模型在监督较少的领域表现得非常灵活,因为它们仅依赖图的结构就能适应多个应用[3, 49]。该方法的主要优势在于消除了对人工标注数据的需求。总结来说,训练策略在图Mamba模型的成功和适应性中起着至关重要的作用。当标注数据丰富时,监督学习仍然是首选方法,它提供了精确且快速的模型收敛。半监督学习弥补了标注数据和未标注数据之间的差距,特别适用于现实世界场景中标注数据稀缺的情况。自监督学习则因其能够利用图的内在结构而脱颖而出,使模型能够发现有意义的模式并高效地扩展到大规模数据集。最后,无监督学习使得图Mamba模型能够发现图数据中的隐藏关系和结构。
通过引入状态空间模型(SSM),图Mamba能够表示图结构中的复杂空间和时间依赖关系。这些模型在通用应用(如社交网络)中表现优异,同时也在其他专门领域如医疗保健、生物信号分析和异构图学习中取得了显著进展。本节将回顾图Mamba的多样化应用,重点介绍每个领域的创新,并分析展示其有效性的关键研究成果。
机器学习与图数据的融合推动了多个领域的突破性进展。然而,传统的图学习方法在捕捉长程依赖和有效处理动态图结构方面存在局限性。为了解决这些挑战,状态空间模型(SSM)作为一种强有力的框架应运而生,通过整合时间建模并更好地管理图数据中的复杂关系,提升了图学习的效果。该方法通过提供一个机制来捕捉空间和时间动态,扩展了基于图的方法的能力。在通用图学习和基准测试方面,SSM在动态图上的机器学习中发挥了重要作用,为长程依赖的整合提供了一种结构化的方式。例如,图状态空间卷积(GSSC) [50] 是该领域的一项重要进展。该方法将SSM应用于图数据,同时保持置换不变性并有效捕捉长程依赖。GSSC主要集中在处理各种领域中的动态图,能够处理复杂系统中的结构演变。GSSC创造了一种新的卷积机制,使用SSM在图设置中进行操作,同时保持重要的图属性(如置换不变性)并更高效地建模长程依赖关系。这种方法结合了全局置换等价集合聚合和分解图核,可以快速且轻松地解析图的结构。该模型适用于通用的图学习任务,在分子生物学和社交网络等领域具有显著的应用,在这些领域中理解复杂的动态关系至关重要。另一项重要贡献是Behrouz等人[32]提出的通过选择性状态空间模型(SSSM)适应图数据的新ML类别。他们开发了图Mamba网络(GMN),将SSSM应用于异构和动态图。Mamba架构使得图学习在保持局部编码和令牌排序的同时,具备了置换不变性。这种方法帮助模型处理社交网络和分子图等不同应用。该创新大大降低了内存和计算开销,并改进了模型的长程关系。为了捕捉长程依赖,Wang等人[3]提出了Graph-Mamba,这是一种新颖的动态图学习技术。通过将图节点优先级机制与SSSM结合,Graph-Mamba最大限度地实现了长程序列建模,同时保持了计算效率。该模型通过使用Mamba模块让模型根据输入选择节点,从而更好地发现长序列中的关键连接。Graph-Mamba特别适用于需要理解动态系统中远距离关系的任务,如交通预测和社交网络分析。一些研究通过创新应用SSM解决了图学习中的时间挑战。在[21]中,Li等人提出了DYGMAMBA,一个连续时间动态图(CTDG)模型,旨在处理长期时间依赖并有效管理动态图中的大规模交互历史。该模型使用SSM表示历史节点交互序列,同时保留重要的时间信息,以便做出准确的未来预测。该模型在动态链路预测任务中进行了测试,结果表明其在多个CTDG数据集上的性能达到了当前最先进的水平。此外,Li等人[49]提出了GRAPHSSM模型,这是一种专门为时间图设计的SSM,用以解决建模时变结构的挑战。它结合了GHIPPO框架,将SSM理论扩展到图中,并使用拉普拉斯正则化来捕捉变化中的拓扑结构。GRAPHSSM还采用了一种混合离散化方法,能高效处理未观测到的图变异。表1总结了这些研究的概况。这些进展凸显了SSM在提升通用图学习,特别是动态图结构中的作用。通过解决传统方法的局限性,如长程依赖的有限能力和动态结构适应问题,基于SSM的模型(如GSSC、GMN、Graph-Mamba、DYGMAMBA和GRAPHSSM)推动了图机器学习应用的边界,提供了在多个领域中都能有效扩展的强大解决方案。
为异构图和知识图开发机器学习模型为处理多重关系数据结构开辟了新道路。这些图通常用于社交网络、推荐系统和知识表示等领域,其中不同的实体和连接需要得到有效建模。SSSM提供了一种稳健的方法,通过引入时间动态并准确捕捉不同类型图中的复杂关系,从而改善图学习。为了解决异构图带来的挑战,Pang等人[24]开发了HeteGraph-Mamba,这是一种使用SSM来管理具有多种节点和边类型的异构数据结构的模型。它使用不同的边类型记录不同种类的节点及其连接。该模型包含了一种图到序列的转换方法,简化了复杂的图数据,同时保持了结构细节。这种策略在知识图和异构网络等应用中尤其有用,例如在IMDB数据集中,实体(如电影、演员和导演)通过多种连接互相关联。Montagna等人[38]设计了一种新的架构,将SSM与拓扑深度学习相结合,用于分析更高阶的结构,特别是单纯复形。该模型为每个节点构建基于邻近单元格的序列,并通过Mamba模块处理这些序列,从而实现信息在所有等级之间的传播。为了解决谱图神经网络中的局限性,Zho等人[41]提出了GrassNet,这是首个将SSM应用于谱滤波的模型。该模型将图谱看作一个序列,通过捕捉谱分量之间的相关性来增强表达能力。SSM在增强知识图和异构图的机器学习模型方面表现出了显著的潜力。通过解决建模复杂关系和长程依赖的问题,SSM使得图学习变得更高效、可扩展。像HeteGraph-Mamba和GrassNet这样的研究展示了图Mamba如何提高计算效率、可扩展性以及处理变化图结构的能力。总之,综述的这些方法(如表2所示)突出显示了SSM在图学习,尤其是在动态和异构环境中的重要进展。这些模型解决了传统图机器学习方法的局限性,并使得处理长程关系和动态结构变得更加高效。GSSC等创新展示了图Mamba在提升可扩展性、改善计算效率和保持图的基本属性方面的作用。