《多模态对齐与融合》综述

摘要——本综述对机器学习中多模态对齐与融合的最新进展进行了全面回顾，尤其是在文本、图像、音频和视频等数据类型日益多样化的背景下。多模态集成通过利用不同模态之间的互补信息，提高了模型的准确性并扩展了其应用范围，同时在数据稀缺的情况下也促进了知识迁移。我们系统地对现有的对齐与融合技术进行了分类和分析，并基于对200多篇相关论文的广泛回顾，提取了有价值的见解。此外，本综述还讨论了多模态数据集成中的挑战，包括对齐问题、噪声鲁棒性以及特征表示的差异，并着重于社交媒体分析、医学影像和情感识别等领域的应用。文中提供的见解旨在指导未来的研究，优化多模态学习系统，以提高其在各类应用中的可扩展性、鲁棒性和泛化能力。

关键词——多模态对齐、多模态融合、多模态性、机器学习、综述

1 引言

技术的快速发展导致了多模态数据生成的指数增长，包括图像、文本、音频和视频[1]。这种数据的丰富性为计算机视觉、自然语言处理（NLP）等多个领域的研究者和从业者带来了机遇与挑战。通过整合来自不同模态的信息，可以显著提升机器学习模型的性能，增强其理解复杂现实场景的能力[2]。模态的结合通常有两个主要目标：（i）不同的数据模态可以互补，从而提高模型在特定任务上的精度和效果[3]，[4]，[5]；（ii）某些模态的数据可能较为稀缺或收集起来具有挑战性，因此，基于大规模语言模型（LLM）的训练可以通过知识迁移在数据稀缺的任务中实现满意的性能[5]，[6]。

例如，在社交媒体分析中，将文本内容与相关的图像或视频结合，可以更全面地理解用户情感和行为[1]，[7]。除了社交网络，多模态方法在医疗图像自动注释、视频摘要和情感识别等应用中也取得了有希望的成果[8]，[9]，[10]，[11]，[12]。尽管取得了这些进展，但在有效整合和利用多模态数据方面仍然存在两个主要的技术挑战：对齐和融合。对齐侧重于建立不同模态之间的语义关系，确保每个模态的表示在一个共同的空间内对齐；而融合则是将多模态信息整合为统一的预测，利用每个模态的优势来提升整体模型的性能。第一个组件是多模态对齐，涉及建立不同模态之间的关系[1]，[49]，[50]，[51]。例如，将视频中的动作步骤与相应的文本描述进行对齐，由于输入输出分布的差异以及模态间可能存在的信息冲突，这一任务需要复杂的方法[52]。多模态对齐可大致分为显式对齐和隐式对齐[1]，[53]。显式对齐通过相似度矩阵直接度量模态间的关系，而隐式对齐则在翻译或预测等任务中作为一个中间步骤。

第二个组件是多模态融合，涉及将不同模态的信息结合起来，进行统一的预测，同时解决模态之间噪声变异性和可靠性差异等挑战[1]，[54]，[55]。传统上，融合方法根据其在数据处理流程中的阶段进行分类[53]，[56]。例如，早期融合在特征提取阶段将多个模态的数据整合在一起，尽早捕捉模态间的交互[56]。本综述聚焦于当前融合技术的核心特征，以更有效地代表现代方法，并指导未来的发展。我们将融合方法分析为基于核、图形、编码-解码器和注意力机制的融合框架。

图1展示了三种典型的多模态模型结构。在（a）中，由于模态之间的交互不足，简单的操作未能实现深入有效的融合。在（b）中，尽管设计了专门的融合网络，但对齐问题仍然显著。具体而言，由图像和文本分别通过各自模态特定模型提取的特征可能在语义上没有对齐，直接将这些特征传递给融合模块可能无法产生最佳结果。在（c）中，模型使用共享编码器或集成的编码-解码过程同时处理多模态输入，这使得图像和文本数据能够转化为共同的表示空间，从而更自然地结合。此类设计通常优先考虑模型的简洁性和效率，特别是在模态间关系已被充分理解并有效建模的情况下。

本研究旨在通过对200多篇相关论文的回顾，提供现有方法、最新进展和潜在未来方向的全面概述，为该领域做出贡献。本综述帮助研究人员理解多模态对齐和融合的基本概念、关键方法及当前进展，重点讨论视觉和语言模态，同时扩展到视频和音频等其他类型。

本综述的组织结构如下：第二节介绍多模态学习的基础概念，包括大规模语言模型（LLM）和视觉模型的最新进展，为对融合和对齐的讨论奠定基础；第三节探讨为什么要进行对齐与融合的综述研究；第四节审视对齐方法，重点讨论显式和隐式技术如何建立不同模态之间的关系；第五节探讨融合策略，将其分为早期、晚期和混合融合，并介绍基于核、图形和注意力机制的先进融合框架；第六节讨论多模态融合和对齐中的关键挑战，包括特征对齐、计算效率、数据质量和可扩展性；最后，第七节概述未来研究的潜在方向，并讨论实践意义，旨在指导该领域的进一步创新。

2 为什么需要对齐与融合

对齐与融合是多模态学习中的两个基本概念，尽管它们各自独立，但相互之间紧密相关，且常常相辅相成[1]，[50]。对齐涉及确保不同模态的数据正确匹配和同步，从而使它们传达的信息具有一致性，并适合进行融合。另一方面，融合是指将来自不同模态的信息结合起来，创建一个统一的表示，全面捕捉数据的本质[1]，[54]，[55]。此外，许多最新的方法发现，在没有对齐过程的情况下进行融合是非常具有挑战性的[49]。

2.1 提升全面性与鲁棒性

对齐确保来自不同源的数据在时间、空间或上下文上同步，从而实现有意义的组合。如果没有适当的对齐，融合过程可能导致误解或关键信息的丢失[53]。一旦对齐完成，融合利用对齐后的数据生成更为鲁棒和全面的表示[49]。通过整合多个视角，融合能够弥补单一模态的弱点，从而提高准确性和可靠性。 2.2 解决数据稀缺与不平衡问题

在许多现实应用中，某些模态的数据可能稀缺或难以获取。对齐有助于即使在数据有限的情况下，也能同步可用的数据，确保其能够有效利用[106]，[107]。随后，融合使得模态之间能够进行知识迁移，使模型能够利用一种模态的优势来弥补另一种模态的不足。这在某一模态拥有丰富数据而另一模态数据稀缺的场景中尤为有用。 2.3 改进模型的泛化能力和适应性

对齐确保了不同模态之间关系的准确理解与建模，这对于模型在不同上下文和应用中进行泛化至关重要[1]，[53]。融合通过创建一个统一的表示，能够更有效地捕捉数据的细微差异，从而提高模型的适应性。这个统一的表示可以更容易地适应新的任务或环境，增强模型的整体灵活性[1]，[53]。 2.4 支撑高级应用

对齐与融合共同推动了诸如跨模态检索等高级应用的发展，在这些应用中，一种模态（例如，文本）中的信息被用于在另一种模态（例如，图像）中搜索相关信息[108]。这些过程对于诸如情感识别等任务也至关重要，在这些任务中，将视觉和听觉线索结合起来，能够比单独使用任何一种模态更准确地理解人类情感[109]。 3 多模态对齐

多模态对齐涉及建立两种或更多不同模态之间的语义关系。它在多个领域得到了广泛研究，包括网络对齐[110]、图像融合[50]和多模态学习中的特征对齐[111]。为了将不同模态对齐到相同的语义表示中，需要衡量这些模态之间的相似性，同时考虑潜在的长程依赖关系和歧义。简而言之，目标是构建一个映射，将一个模态的表示与另一个模态中共享相同语义的表示对齐。根据[1]，对齐可以分为两种类型：显式对齐和隐式对齐。显式对齐通常通过使用相似度矩阵直接度量相似性，而隐式对齐则通常是在翻译或预测等任务中作为一个中间步骤进行处理。 3.1 显式对齐

显式对齐有着早期的基础，通常依赖于诸如动态时间规整（DTW）[112]，[113]和典型相关分析（CCA）[114]等统计方法。

DTW通过找到一个最优匹配来测量两个序列之间的相似性，该过程涉及插入帧来对齐序列[112]。然而，原始的DTW公式需要预定义的相似性度量，因此它与典型相关分析（CCA）结合，后者由Harold Hotelling于1936年提出[114]，通过线性变换将两个不同的空间投影到一个共同的空间中。CCA的目标是通过优化投影来最大化两个空间之间的相关性。CCA促进了对齐（通过DTW）和模态间映射的联合学习，并且可以以无监督的方式进行，正如在视频-文本和视频-音频对齐等多模态应用中所见。图2展示了CCA方法的可视化。具体而言，CCA的目标函数可以表示为： max⁡ρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中： • X 和 Y 是来自两个不同空间的数据矩阵； • u 和 v 是线性变换向量（或典型向量），它们将 X 和 Y 投影到共同空间中； • ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之间的相关系数； • 目标是找到 u 和 v，使得投影后的数据之间的相关性ρ最大化。然而，CCA只能捕捉两个模态之间的线性关系，限制了它在涉及非线性关系的复杂场景中的应用。为了解决这一限制，引入了核典型相关分析（KCCA），它通过核方法将原始数据映射到更高维的特征空间，从而处理非线性依赖[115]，[116]。像多标签KCCA和深度典型相关分析（DCCA）等扩展方法进一步改进了原始的CCA方法[115]，[116]，[117]，[118]，[119]。此外，Verma和Jawahar展示了如何使用支持向量机（SVM）实现多模态检索[120]。另外，像图像对齐中基于特征模态的线性映射方法也被开发出来，旨在通过复杂的空间变换来处理多模态对齐问题[121]。 3.2 隐式对齐

隐式对齐是指在执行主要任务时作为中间步骤使用的方法，通常是以潜在方式进行。与直接对齐不同模态的数据不同，这些方法通过学习共享的潜在空间来改善主要任务的性能。隐式对齐技术可以大致分为两类：基于图模型的方法和基于神经网络的方法。 3.2.1 基于图模型的方法

图结构的整合使得更复杂的模态间关系得以更好地建模，从而使多模态数据的处理更加准确和高效。这些方法常用于将图像与文本或图像与信号进行对齐。例如，某些模型通过对物体的图表示进行对齐，实现了少样本上下文模仿学习，从而使机器人在没有事先训练的情况下能够执行新的任务[122]。基于显式进化模型的GraphAlignment算法在识别同源顶点和解决副本问题方面表现出强大的性能，优于其他方法[123]。图3展示了如何在对齐中使用图结构。

这些任务中的一个主要挑战是对齐不同模态之间的隐式信息，其中多模态信号并不总是直接对应。基于图的模型通过将模态间的复杂关系表示为图结构（图中节点表示数据元素，如词语、物体或帧，边表示它们之间的关系，如语义、空间或时间关系）在解决这个问题上证明了其有效性。近期的研究探索了使用图结构进行多模态对齐的多个方面。例如，Tang等人[124]提出了一种基于图的多模态顺序嵌入方法，以提高手语翻译。通过将多模态数据嵌入到统一的图结构中，他们的模型更好地捕捉了复杂的关系。另一个应用是在情感分析中，隐式多模态对齐起着至关重要的作用。Yang等人[125]提出了一种基于图的多模态对齐模型（MGAM），该模型联合建模了显式方面（如物体、情感）和隐式多模态交互（如图像-文本关系）。在具身人工智能领域，Song等人[126]探讨了如何构建基于场景的知识图，以建模复杂多模态任务中的隐式关系。他们的工作将文本和视觉信息整合到一个知识图中，并通过基于图的推理进行多模态语义的对齐。对齐隐式线索（如场景中物体之间的空间和时间关系）对于提高具身人工智能系统中的决策和交互至关重要。在命名实体识别（NER）任务中，Zhang等人[127]提出了一种基于图的逐标记方法，该方法结合了与文本相关的图像中的隐式视觉信息。该方法利用视觉域中的空间关系来改进命名实体的识别，这在使用孤立的文本数据时通常是模糊的。在图像描述生成和视觉问答（VQA）等任务中，场景图也起着至关重要的作用。Xiong等人[128]提出了一种基于场景图的模型，用于跨模态的语义对齐。通过将物体及其关系表示为图中的节点和边，该模型提高了视觉和文本模态的对齐效果。总之，基于图的方法为表示多样化数据类型提供了强大的框架，并且在多模态对齐中具有巨大的潜力。然而，这种灵活性也带来了重大的挑战。图结构的稀疏性和动态性增加了优化的复杂性。与矩阵或向量不同，图具有不规则的非结构化连接，导致计算复杂度高且内存开销大，即使在先进的硬件平台上也存在这些问题。此外，图神经网络（GNN）对超参数特别敏感。网络架构、图采样和损失函数优化等选择直接影响性能，这增加了GNN设计和实际部署的难度。 3.2.2 基于神经网络的方法

近年来，基于神经网络的方法已成为解决隐式对齐问题的主要方法，特别是在翻译等任务中，将对齐作为潜在的中间步骤通常能获得更好的结果。常见的神经网络方法包括编码器-解码器模型和跨模态检索。当没有隐式对齐时，翻译过程会给编码器带来更大的负担，需要它将整个图像、句子或视频总结为一个向量表示。一个常见的解决方案是使用注意力机制，使解码器能够专注于源实例的特定子组件。这与传统的编码器-解码器模型不同，后者将所有源子组件一起编码。注意力模块引导解码器更多地关注被翻译的源实例的特定子组件——例如图像的区域、句子中的词语、音频的片段、视频中的帧或指令的部分。例如，在图像描述生成中，注意力机制允许解码器（通常是递归神经网络）在生成每个词时专注于图像的特定部分，而不是一次性编码整个图像[129]。以前的工作通过设计特定模态的嵌入器和预测器，接口连接输入和输出的预训练模型来实现这一目标。生成对抗网络（GAN）由于其能够学习高维数据空间之间的复杂映射，因此已成功应用于多模态数据的合成[130]，[131]，[132]，[133]，[134]。例如，在MRI模态中，使用一个统一框架，其中单个生成器学习跨模态的映射，可以提高不同数据类型之间的对齐精度[130]。另一种深度生成方法，C-Flow，利用标准化流进行多模态对齐，应用于3D点云重建等任务，从而对生成过程进行更细粒度的控制[135]。自编码器及其变体，如变分自编码器（VAE），也被用来学习潜在表示，捕捉跨模态的基础语义结构。这种方法在组合表示学习中证明了其有效性，VAE帮助通过将图像和文本模态映射到共享的潜在空间来对齐它们[136]。类似地，使用VAE的跨模态量化进行图像-文本配对生成，展示了神经网络如何通过学习量化的联合表示对齐文本和视觉数据[137]。此外，半监督流形对齐方法（如扩散传输对齐DTA）利用少量先验知识对齐具有不同但相关结构的多模态数据域[138]。这种方法在仅能进行部分数据对齐的情况下尤为有效，因为它依赖于域之间的几何相似性。最近，Att-Sinkhorn方法结合了Sinkhorn度量和注意力机制，在通过解决不同模态的概率分布之间的最优传输问题来改进多模态特征对齐方面显示了更高的准确性[139]。总之，显式和隐式对齐技术在多模态机器学习领域都至关重要。尽管显式方法提供了一个明确的框架，用于度量相似性和建立对应关系，但隐式方法通常更灵活，并能适应更多的场景，特别是那些涉及复杂或模糊数据关系的任务。未来的研究可能会继续探索结合两种对齐策略优点的混合方法，以解决多模态数据中所面临的各种挑战[110]，[111]，[139]。

4 多模态融合

多模态数据涉及多种信息类型的整合，如图像、文本和音频，这些信息可以通过机器学习模型处理，从而提高多种任务的性能[1]，[53]，[140]，[141]，[142]，[143]。通过结合不同类型的信息，多模态融合利用了每种模态的优势，同时弥补了依赖单一数据类型时可能出现的弱点或空白[1]，[53]，[144]。例如，每种模态在最终预测中可能会有不同的贡献，某些模态可能在某一时刻比其他模态更具信息量或噪声更小。融合方法在有效结合不同模态的信息时至关重要。早期的方法通常将图像和文本分开处理，两个数据类型之间仅有基本的整合。像 CLIP [13] 这样的架构采用了双编码器框架，其中视觉和文本信息分别编码，它们的交互通过简单的操作来处理，通常涉及点积计算[145]，[146]。因此，这两种模态的融合在整体模型架构中所占的比重较小，主要由编码器本身主导。尽管这种有限的集成策略在基于检索的任务[147]，[148]中有效，但对于更复杂的多模态挑战（需要深度理解和模态之间的交互）则不够充分[149]，[150]。如果通过独立训练每个模态的专门编码器，然后进行表面化的集成就能实现强大的性能，那么深度多模态学习的需求就值得怀疑。然而，经验数据表明，对于需要细致理解的任务，如视觉问答和视觉推理，必须对两种模态进行更复杂、更深度的融合，才能充分捕捉视觉感知和语言处理之间的相互关系[152]。传统上，融合方法根据融合发生的数据处理管道阶段进行分类。早期融合在特征级别进行数据整合，晚期融合则在决策级别进行整合，混合融合结合了两者的特点[1]，[53]。早期融合涉及在特征提取阶段将来自不同模态的数据合并[56]，从而让模态之间的交互得以早期捕捉。如赵等人[93]所述，集成发生在特征级别。相比之下，晚期融合则在决策阶段将各个模态模型的输出结合起来，当预测时缺少一个或多个模态时，这种方法特别有优势，正如 Morvant 等人[153]所展示的。混合融合则将早期融合和晚期融合的各个方面结合在一起，赵等人[93]研究了其在深度学习中的实现。随着技术和融合方法的演进，区分早期、晚期和混合融合变得越来越复杂。先进的方法通常超越了传统的基于时序的分类，在特征级别和决策级别同时操作，这挑战了僵化的分类。为了解决这种复杂性，我们提出了一种基于当前融合技术核心特征的新分类框架，提供了对现代方法的更准确表征，并为未来的进展提供指导。特别是，尽管许多基于注意力的方法可以适配编码器-解码器或仅编码器框架，但我们将它们单独分类，因为它们在最近的显著发展和独特创新方面，传统的分类方法无法充分捕捉。

4.1 编码器-解码器融合

编码器-解码器融合架构涉及一个编码器，该编码器从输入数据中提取关键特征并将其压缩成紧凑的形式，而解码器则基于这种压缩的表示重建输出[26]。在该架构中，系统主要由两个主要组件组成：编码器和解码器。编码器通常作为一个高级特征提取器，将输入数据转换为一个潜在空间，其中包含重要特征[26]，[37]。换句话说，编码过程在减少冗余的同时保留了重要的语义信息。一旦编码步骤完成，解码器就会基于潜在表示生成相应的“重建”输出[26]，[31]。在像语义分割这样的任务中，解码器的输出通常是一个语义标签图，它与输入大小相匹配。编码器-解码器融合通常有三种形式：（1）数据级融合，将来自不同模态的原始数据拼接在一起，并送入共享的编码器；（2）特征级融合，分别从每个模态提取特征，可能包括中间层，然后将它们组合后再输入到解码器；（3）模型级融合，在处理后将各个模态特定模型的输出进行拼接。图4展示了这三种类型的编码器-解码器融合结构。特征级融合通常最为有效，因为它考虑了不同模态之间的关系，从而实现了更深层次的集成，而非表面上的组合。

4.1.1 数据级融合

在这种方法中，来自每个模态的数据或每个模态独特预处理步骤后的处理数据在输入级别进行合并[27]。在这种集成之后，来自所有模态的统一输入将通过一个编码器来提取更高层次的特征。换句话说，来自不同模态的数据在输入阶段被合并，并通过单一编码器提取综合特征。最近的研究聚焦于数据级融合，以提高自动驾驶中物体检测和感知的性能。一些研究探索了在神经网络架构的早期阶段融合相机和LiDAR数据，展示了在稀疏点云中，特别是对骑行者的三维物体检测精度有所提升[35]。一个基于Yolo框架的联合处理相机和LiDAR原始数据的系统比传统的决策级融合提高了5%的车辆检测精度[27]。此外，还开发了一个面向低级传感器融合的开放硬件和软件平台，特别是利用原始雷达数据，推动了这一领域的研究[36]。这些研究突出了原始数据级融合在利用传感器间协同作用并提高整体系统性能方面的潜力。

4.1.2 特征级融合

这种融合技术的核心思想是将来自多个抽象层次的数据进行组合，从而利用从深度网络不同层次提取的特征，最终增强模型的性能。许多应用都实施了这一融合策略[32]，[163]。特征级融合已成为多种计算机视觉任务中的一种强大方法。它涉及在不同的抽象层次上融合特征以提升性能。例如，在性别分类中，融合局部补丁的两层层次结构证明是有效的[163]。在显著性物体检测中，融合来自不同VGG层次的特征的网络能够保留语义信息和边缘信息[30]。在多模态情感计算中，一种“分而治之，合而为一”的策略探索了局部和全局交互，达到了最先进的性能[32]。对于自适应视觉跟踪，开发了一种层次模型融合框架，通过层次更新对象模型，引导参数空间的搜索并减少计算复杂性[33]。这些方法展示了层次特征融合在多个领域中的多样性，展现了它在捕捉细粒度和高级信息方面的能力，从而在复杂的视觉任务中实现更好的性能。

4.1.3 模型级融合

模型级融合是一种通过集成多个模型的输出提高准确性的技术。例如，在使用地面穿透雷达（GPR）进行地雷检测时，Missaoui等人[34]证明了通过多流连续隐马尔可夫模型（HMM）融合边缘直方图描述符和Gabor小波的方式，优于单一特征和等权重组合。在多模态物体检测中，Guo和Zhang[28]应用了平均、加权、级联和堆叠等融合方法，将图像、语音和视频的模型结果结合起来，从而提高了在复杂环境中的性能。对于面部动作单元（AU）检测，Jaiswal等人[29]发现，使用人工神经网络（ANN）的模型级融合比简单的特征级方法更有效。此外，对于涉及多保真度计算机模型的物理系统，Allaire和Willcox[25]开发了一种融合方法，利用模型不适配信息和合成数据，得到了比单独模型更好的估计结果。在质量控制和预测性维护中，一种新颖的模型级融合方法优于传统方法，减少了预测方差30%，并提高了45%的准确性[38]。这些研究证明了模型级融合在多个领域中的有效性。本节回顾了基于编码器-解码器架构的融合模型。编码器-解码器融合架构在多模态任务中被广泛应用，展示了不同融合技术的多样性，包括数据级融合、特征级融合和模型级融合。这些方法在提高多模态学习模型的准确性和鲁棒性方面起到了重要作用，为未来的研究和应用提供了有益的参考。

4.2 基于注意力机制的融合

基于注意力机制的融合方法近年来得到了广泛应用，特别是在多模态学习任务中。注意力机制的核心思想是根据输入数据的重要性动态调整其对模型的影响，而不是对所有输入特征进行等权处理[154]。这种方式通过引导模型关注最相关的模态和特征，从而提高了模型的表现和鲁棒性。在多模态学习中，基于注意力的融合可以通过多种方式实现。最常见的方法包括加权融合、交互式融合以及跨模态注意力机制的应用。通过引入自注意力机制（Self-Attention）和跨模态注意力机制，模型能够自动学习不同模态之间的相互关系，并在处理复杂任务时做出适当的决策[155]。例如，在视觉问答（VQA）任务中，通过引入跨模态注意力机制，模型可以根据问题的内容自动选择与之相关的图像区域，从而提高了任务的精确度和准确性[156]。类似的，在多模态情感分析中，基于注意力的机制能够帮助模型理解不同模态（如语音、文本和面部表情）之间的相互作用，从而对情感状态进行更为精准的预测[157]。此外，近年来，许多研究还将多头注意力（Multi-Head Attention）扩展到多模态融合中，允许模型并行处理多个模态的不同子空间，从而增强了多模态交互的表达能力[158]。这种方法尤其适用于需要多方面信息整合的复杂任务，如视频内容分析和跨模态检索等。总之，基于注意力机制的融合方法通过动态调整不同模态的贡献，能够有效提升模型在多模态学习中的表现，特别是在处理多层次、多类型信息时，能够显著改善性能。

4.3 图神经网络（GNN）在多模态融合中的应用

图神经网络（GNN）在处理具有复杂关系和结构的数据时，表现出极大的潜力，因此被广泛应用于多模态融合任务中。GNN通过图的节点和边之间的传播机制，能够捕捉到数据的结构信息，在图像、文本和其他模态数据之间建立有效的联系。在多模态融合的背景下，GNN可以将不同模态的特征表示作为图的节点，并通过图卷积操作（Graph Convolution）来学习模态间的关系。例如，在图像和文本融合的任务中，可以将图像中的不同区域和文本中的不同词汇视为图的节点，节点之间通过边连接，表示它们之间的关系。通过图卷积操作，模型能够学习到图像和文本之间的深层次关联，从而在视觉问答、图像描述等任务中取得更好的效果[159]。 GNN还可以应用于多模态信息的关联学习和跨模态信息检索等任务中。在这些任务中，GNN能够通过图结构有效地捕捉模态间的复杂交互，帮助模型从不同模态中提取有用的信息并进行融合。这种方法尤其适合处理带有结构关系的多模态数据，如社交媒体上的多模态情感分析和医学图像分析中的跨模态信息融合。随着图神经网络在多模态学习中的不断发展，越来越多的研究表明，图结构能够为不同模态间的交互提供一种自然且高效的表示方式，为多模态融合方法提供了新的思路。

4.4 自监督学习与多模态融合

自监督学习是一种无监督学习方法，它通过自我生成标签来训练模型，尤其在没有大量标注数据的情况下表现出了强大的潜力[160]。这种方法通过构造辅助任务，使模型学习数据的深层次结构，并为多模态融合提供了新的思路。

在多模态学习中，自监督学习能够通过从单一模态的输入中生成任务相关的信息，并促进模态间的对齐和互补。通过构建自监督任务（例如图像-文本对比学习），模型可以在无监督的情况下学习到不同模态之间的语义一致性，进而提高多模态融合的效果[161]。

例如，在图像-文本对比学习中，模型可以通过构造图像与文本之间的相关性任务，来学习它们之间的联合表示。这样，尽管模型不需要大量标注数据，它仍然能够学习到跨模态的有效表示，并在多模态任务中进行更准确的预测。这种自监督学习方法在减少对标注数据依赖的同时，能够显著提高模型的泛化能力和跨模态表现。

4.5 持续学习与多模态融合

持续学习（Continual Learning）是指模型在不断接收新数据时，能够保持已有知识的同时，学习新知识，而不会遭遇灾难性遗忘[162]。在多模态学习中，持续学习能够有效处理随时间变化的多模态数据，特别是当模型需要根据实时输入调整其学习策略时。

在多模态融合任务中，持续学习能够使模型随着新模态或新领域的到来，灵活地调整其参数和融合策略，从而适应新的数据分布[163]。例如，自动驾驶系统中的传感器数据（如雷达、相机、激光雷达等）可能随着环境变化而发生变化，持续学习可以帮助模型保持对不同传感器数据的有效融合，同时应对新的驾驶环境。持续学习还能够促进多模态模型的可扩展性和自适应性，使其能够在新的多模态数据出现时，进行快速有效的调整，避免灾难性遗忘的问题。这为多模态学习提供了更为强大的能力，特别是在需要处理动态变化的复杂数据环境时。