在多模态模型训练和推理过程中,由于传感器限制、成本约束、隐私问题、数据丢失以及时间和空间因素,数据样本可能会缺失某些模态,导致模型性能下降。本综述概述了在缺失模态的多模态学习(MLMM)领域的最新进展,重点关注深度学习技术。这是第一个全面的综述,涵盖了MLMM的历史背景以及其与标准多模态学习设置的区别,随后详细分析了当前的MLMM方法、应用和数据集,并讨论了该领域面临的挑战和未来可能的发展方向。
多模态学习已成为人工智能(AI)领域的关键领域,专注于整合和分析各种数据类型,包括视觉、文本、听觉和传感器信息(图1a)。这种方法反映了人类通过结合多种感官来更好地理解和与环境互动的能力。现代多模态模型利用深度学习的强大泛化能力,揭示单模态系统可能无法检测到的复杂模式和关系。这种能力推动了多个领域的工作进展,包括计算机视觉。最近在这些领域的调查显示,多模态方法的显著影响,证明了它们能够提高性能并实现更复杂的AI应用【7,224】。
然而,多模态系统在实际应用中往往面临数据缺失或不完整的问题。这种情况的发生可能是由于传感器故障、硬件限制、隐私问题、环境干扰和数据传输问题等多种因素造成的。如图1b所示,在三模态的情况下,数据样本可以分为全模态(包含所有三种模态的信息)或缺失模态(完全缺失一种或多种模态的数据)。这些问题可能在数据收集到部署的任何阶段发生,显著影响模型性能。现实世界中此类问题在多个领域广泛存在。在情感计算领域,研究人员【31,150】发现,由于相机遮挡或麦克风噪声过大,样本中仅包含可用的图像或音频。同样,在太空探索中,NASA的“机智号”火星直升机【36】由于火星上的极端温度循环导致其倾角仪失效,面临缺失模态的挑战。为了解决这一问题,NASA应用了一项软件补丁,修改了导航算法的初始化【169】。在医疗AI领域,由于隐私问题,某些数据样本中某些模态可能不可用,导致多模态数据集中固有的模态缺失【222】。现实场景的不可预测性和数据来源的多样性进一步加剧了这一挑战。因此,开发能够在模态缺失情况下有效运行的多模态系统,已成为该领域的关键研究方向。
在本综述中,我们将处理缺失模态的挑战称为“缺失模态问题”。我们将解决该问题的方法称为“缺失模态的多模态学习”(MLMM)。这一方法与传统的全模态多模态学习(MLFM)形成对比。具体而言,在MLFM任务中,给定一个包含HHH模态的数据集,通常要求训练模型能够处理和融合所有HHH种模态的信息以进行预测。在训练和测试过程中,使用来自所有HHH种模态的完整信息样本。而在MLMM任务中,由于数据收集限制或部署环境中的约束,在训练或测试时使用少于HHH种模态的数据。MLMM的主要挑战在于在训练和测试过程中动态且稳健地处理和融合任意数量的可用模态信息,同时保持与全模态样本相当的性能。
本综述涵盖了MLMM的最新进展及其在信息检索、遥感和机器人视觉等多个领域的应用。我们提供了对MLMM方法论、应用场景和相关数据集的细致分类。我们的工作扩展了现有专注于特定领域(如医学诊断【5,151,235】、情感分析【179】和多视图聚类【17】)的MLMM综述。通过提供对当前研究的全面概述并识别未来工作的有前景方向,本综述旨在为开发更稳健且适应性强的多模态学习系统做出贡献。这些进展对于将智能系统部署在从行星探索的恶劣条件到日常生活中的动态和不可预测环境中至关重要。
本综述的主要贡献有三点:
我们根据四个主要维度的分类框架对现有的深度缺失模态多模态学习(MLMM)方法进行分类和讨论:模态增强、特征空间工程、架构工程和模型选择。
我们将解决缺失模态问题的模态增强方法分为两类,针对模态层次上的原始数据。第一类是模态组成方法,该方法使用零值/随机值、从相似实例中直接复制的数据,或通过检索算法获得的匹配样本,与缺失模态样本组合形成全模态样本。第二类是模态生成方法,它使用生成模型(如自动编码器(AEs)[55],生成对抗网络(GANs)[42],或扩散模型[56])生成缺失模态的原始数据。
2.1.1 模态组成方法 当数据集中缺失模态样本较少时,删除这些样本是多模态数据集预处理中的常见方法。但这种方法会减少数据集的规模,并在数据集中包含许多缺失模态样本时导致一些稀有样本消失。模态组成方法因其简单有效而广泛使用,且可以保持数据集的规模。典型方法之一是零值/随机值组成方法,用零值/随机值替换缺失模态数据,如图3所示。在最近的研究中[28, 102, 114, 163],这些方法经常作为基线与提出的方法进行比较。针对缺失序列数据问题,例如视频中的缺失帧,提出了类似的帧-零值方法[135],用零帧替换缺失帧并与可用帧组合。这些方法在典型的多模态学习训练过程中非常常见。通过这些方法,多模态模型可以在预测时平衡和整合来自不同模态的信息,从而避免模型过度依赖一个或几个模态,增强其鲁棒性。然而,当数据集中大多数样本都是缺失模态样本时,这些方法难以很好地泛化。另一种组成方法基于检索算法(图3),通过从具有相同模态和类别的检索样本中复制/平均原始数据来填充缺失模态数据。一些简便的方法会随机选择一个具有相同类别和所需模态的样本,并与输入的缺失模态组合,形成用于训练的全模态样本。例如,研究人员[204]提出了Modal-mixup,随机补充缺失模态样本来完成训练数据集。然而,这类方法在测试阶段无法解决缺失模态问题。针对视频等流数据中的缺失帧问题,研究人员提出了使用帧重复法[135],通过使用过去的帧来补足缺失帧。一些工作[14, 41, 204]尝试使用K近邻(KNN)或其变体来检索最佳匹配样本进行组合。实验表明,基于KNN的方法在处理测试阶段的缺失模态问题时,表现优于随机选择等方法。但简单的聚类方法往往存在高计算复杂度、对不平衡数据敏感及高内存开销等问题。此外,基于检索的模态组合方法不适用于像素级任务(如分割),仅适用于简单任务(如分类),因为它们可能导致模型混淆。此外,上述所有方法虽然能够完成缺失模态的数据集,但它们会降低数据集的多样性。这对于高模态缺失率(大部分样本都是缺失模态样本)的数据集尤其成问题,因为这增加了过拟合到某些少量全模态样本类别的风险。
2.1.2 模态生成方法 在缺失数据研究中,提出了各种矩阵填充方法[41],利用矩阵元素之间的潜在相关性。然而,在多模态数据集中,缺失数据通常以大块形式出现,使得传统方法在大规模处理和高维计算中效率低下。随着深度学习的发展,生成缺失模态变得更加高效。当前生成缺失模态原始数据的方法分为单模态生成方法和统一模态生成方法。单模态生成方法为每个模态训练单独的生成模型,以应对任意缺失模态的情况,如图5a所示。早期工作使用高斯过程[117]或玻尔兹曼机[159]从可用输入生成缺失模态数据。随着深度学习的发展,诸如AEs和U-Net[147]等方法被用于生成原始模态数据。Li等人[87]使用3D-CNN从磁共振成像(MRI)数据生成正电子发射断层扫描(PET)数据。Chen等人[24]通过训练U-Net模型,从MRI数据中生成其他两种模态以解决MRI分割中的缺失模态问题。最近的工作[113]将AEs作为基线方法之一,通过为每个模态训练一个AE来完成数据集。在领域自适应中,Zhang等人[220]提出了一个多模态数据生成模块,通过领域对抗学习生成每个缺失模态,学习领域不变特征。GANs通过使用生成器创建逼真的数据,并让鉴别器区分其与真实数据,显著提高了图像生成的质量。研究人员开始用GANs代替AEs和U-Nets生成缺失模态。例如,GANs通过现有模态的潜在表示生成缺失模态的原始数据,在乳腺癌预测中得到了应用[3],而WGANs则应用于情感分析[184]。在遥感领域,Bischke等人[8]使用GANs生成深度数据,改善了RGB模型的分割性能。GANs还用于机器人识别中生成RGB和深度图像[45]。最近的研究[113]表明,GANs在生成更真实的缺失模态时表现优于AEs,并能带来更好的下游任务模型性能。最近,扩散模型的引入进一步提高了图像生成质量。Wang等人提出了IMDer方法[190],利用可用模态作为条件,帮助扩散模型生成缺失模态。实验表明,扩散模型减少了恢复模态与缺失模态之间的语义模糊性,并且在泛化性能方面优于以往的方法。然而,为每个模态训练一个单独的生成器效率低下,且无法捕捉模态之间的潜在相关性。研究人员开发了另一种生成方法,即统一模态生成方法,训练一个统一模型可以同时生成所有模态(图5b)。代表性模型之一是Cascade AE[174],通过堆叠AEs来捕捉缺失模态与现有模态之间的差异,从而生成所有缺失模态。最近的研究人员,如Zhang等人[221],尝试使用注意力机制和最大池化层来整合现有模态的特征,使得模态特定的解码器能够生成每个缺失模态。实验表明,该方法比仅使用最大池化[19]来整合多个模态特征生成缺失模态更加有效。尽管上述方法在一定程度上能够缓解性能下降的问题,但训练能够生成高质量、类似真实世界分布的缺失模态的生成器仍然具有挑战性,尤其是在训练数据集中包含较少全模态样本的情况下。此外,模态生成模型显著增加了存储需求。随着模态数量的增加,这些生成模型的复杂性也随之增加,进一步增加了训练过程和资源需求的复杂性。
以下介绍在特征空间层次解决缺失模态问题的方法。首先,我们介绍两种基于约束的方法,通过施加特定约束来增强更具辨别力和鲁棒性的表示学习(图6)。一种方法是通过正则化来提高学习表示的有效性和泛化能力。另一种方法侧重于最大化相关性,使用特定的度量来加强特征之间的关系。接下来,表示组成方法可以借鉴2.1.1节讨论的解决方案,在模态的特征层次上操作,或使用算术运算来处理动态数量的模态。最后,我们介绍表示生成方法,该方法能够生成缺失模态的特征表示。
与上述生成模态或模态表示的方法不同,一些研究人员通过调整模型架构来适应缺失模态的情况。根据其在处理缺失模态中的核心贡献,我们将其分为四类:基于注意力的方法、基于蒸馏的方法、基于图学习的方法和多模态大语言模型(MLLMs)。
模型选择方法旨在使用一个或多个选定的模型进行下游任务,同时增强其鲁棒性和性能。这些方法可以分为集成方法、专用方法和离散调度方法。集成方法通过投票、加权平均等方式组合多个选定模型的预测结果,以提高最终决策的准确性和稳定性。专用方法则为不同的子任务(如不同的缺失模态情况)分配专门的个体模型,专注于特定的子任务或子数据集。在离散调度方法中,用户可以使用自然语言指令让大型语言模型(LLMs)根据模态类型和下游任务自主选择合适的模型。
在过去十年中,基于深度学习的多模态学习经历了爆炸式增长,在学术界和工业界得到了广泛应用。与这些应用相伴的是各种形式的多模态数据集的出现。然而,此类数据集的收集往往需要大量人力和成本。在某些特定的应用方向上,诸如用户隐私问题、数据收集设备的传感器故障等因素,可能导致数据集中存在缺失模态。在严重的情况下,多达90%的样本可能存在缺失模态问题,使得传统的全模态多模态学习(MLFM)在模型训练时难以取得良好的性能。这催生了缺失模态多模态学习(MLMM)的任务。由于导致数据集不完整的因素通常来自不同的应用方向,下面我们根据这些应用方向介绍相应的数据集:情感分析、医疗诊断、检索/描述、遥感、机器人视觉等。我们还根据应用和数据类型在表3中对这些数据集进行了分类。
在本综述中,我们首次对缺失模态的深度多模态学习进行了全面回顾。我们首先简要介绍了缺失模态问题的历史发展及其在现实世界中的重要性原因。随后,我们从两个角度对该领域的当前进展进行了细致的分类和总结:方法论、应用与数据集。最后,我们讨论了该领域现存的挑战和未来可能的发展方向。尽管越来越多的研究人员参与到缺失模态问题的研究中,我们也关注到一些亟待解决的紧迫问题,例如统一的测试基准(如多模态大语言模型)以及更广泛的应用需求(如自然科学)。通过我们的全面且详细的综述,我们希望能够激励更多的研究人员探索缺失模态的深度多模态学习技术,最终为开发出鲁棒且高性能的AI系统做出贡献。