摘要——在现实场景中,实现领域适应和泛化面临着重大挑战,因为模型必须适应或在未知目标分布之间进行泛化。将这些能力扩展到看不见的多模态分布,即多模态领域适应与泛化,因不同模态的特性差异而变得更加困难。多年来,在这一领域取得了显著进展,应用范围涵盖从动作识别到语义分割等多个领域。此外,近期大型预训练多模态基础模型(如CLIP)的出现,激发了利用这些模型来增强适应性和泛化性能,或将其应用于下游任务的研究工作。本综述首次全面回顾了从传统方法到基础模型的最新进展,涵盖以下内容:(1)多模态领域适应;(2)多模态测试时适应;(3)多模态领域泛化;(4)借助多模态基础模型进行领域适应和泛化;(5)多模态基础模型的适应。对于每个主题,我们正式定义问题并全面回顾现有方法。此外,我们还分析了相关的数据集和应用,突出了开放挑战和未来可能的研究方向。我们维护一个活跃的资源库,包含最新的文献,网址:https://github.com/donghao51/Awesome-Multimodal-Adaptation。关键词——领域泛化,领域适应,多模态学习,基础模型,测试时适应

1 引言领域适应(Domain Adaptation, DA)和领域泛化(Domain Generalization, DG)已在研究领域中引起了广泛关注 [1], [2]。在机器人学 [3], [4]、动作识别 [5] 和异常检测 [6], [7] 等现实应用中,训练于有限源领域的模型必须在新的目标领域上表现良好。为了解决分布偏移问题,已经提出了众多DA和DG算法,包括分布对齐 [8]、领域不变特征学习 [9]、特征解耦 [10]、数据增强 [11] 和元学习 [12] 等。然而,这些算法大多是为单模态数据(如图像或时间序列数据)设计的。随着大规模多模态数据集的出现,解决多模态领域适应(Multimodal Domain Adaptation, MMDA)和多模态领域泛化(Multimodal Domain Generalization, MMDG)的问题变得尤为重要,这些数据集跨越了多个模态,包括音频-视频 [13]、图像-语言 [14] 和激光雷达-相机 [15]。图1展示了单模态和多模态DA/DG之间的区别,其中MMDA和MMDG通过整合来自多个模态的信息,增强了泛化能力。近年来,MMDA和MMDG在动作识别 [16] 和语义分割 [17] 等领域取得了显著进展。MMDA和MMDG的一个核心挑战是如何有效利用来自不同模态的互补信息来提升泛化性能——这是单模态DA和DG方法往往无法做到的。例如,Munro和Damen [16] 提出的方案将模态内对抗对齐与多模态自监督对齐结合,用于MMDA。多模态测试时适应(Multimodal Test-Time Adaptation, MMTTA)[18] 是一种特殊形式的MMDA,旨在通过在线适应预训练的源多模态模型到目标领域,而无需访问源领域数据。大规模多模态基础模型(Multimodal Foundation Models, MFMs)的出现,如对比语言-图像预训练(CLIP)[14] 和稳定扩散 [19],为DA和DG开辟了新的研究方向。这些研究致力于利用MFMs增强泛化能力,或将MFMs适应到下游任务中。例如,Dunlap等人 [20] 通过语言扩展图像嵌入到未见领域,而Huang等人 [21] 将CLIP的知识蒸馏到一个更小的学生模型中,用于领域泛化。此外,Zhou等人 [22] 通过建模可学习向量的提示上下文词语,适应CLIP-like视觉-语言模型(VLMs)到下游图像识别任务中。尽管该领域近期取得了显著进展,但目前尚无全面的综述文章总结多模态适应与泛化的主要思想。本文旨在提供过去十年中发展出的算法的详细文献回顾,并为未来的研究方向提供洞察。本论文涵盖了五种适应场景(见图2和图3),结构安排如下:第2节讨论相关研究领域;第3节介绍多模态领域适应问题,并重点回顾在动作识别和语义分割中的主要解决方案;第4节和第5节分别呈现多模态测试时适应和领域泛化的代表性方法;第6节探讨如何利用多模态基础模型改善DA和DG;第7节回顾了将MFMs适应到下游任务的流行方法;第8节总结了主要的应用和数据集;最后,在第9节概述了未来研究方向,第10节总结了全文。与之前综述的比较。尽管我们的综述贡献于DA和DG的更广泛领域,这些领域在之前的文献中已有回顾 [1], [2],但我们的重点是多模态适应与泛化,即涉及多个模态的方法。Zhang等人 [23] 的综述仅涵盖了2023年前VLMs适应的概述,而我们则统一讨论了传统方法在MMDA、MMTTA和MMDG中的应用、先进MFMs在提升DA和DG中的作用,以及最近将MFMs适应到下游任务的方法。

2. 相关研究主题2.1 领域适应领域适应旨在通过利用标记的源数据和未标记的目标数据来增强模型在目标域中的性能 [1]。传统的DA方法主要关注以图像为主要输入的单模态场景。常见的方法包括使用差异度量对齐特征分布 [8]、在输入或特征空间中使用对抗学习 [130, 131]、以及使用基于重建的方法 [132]。此外,数据增强 [11] 和自训练 [133] 等技术也得到了广泛探索。根据源域和目标域之间标签集关系的假设,DA进一步分为部分集 [134]、开放集 [135] 和通用DA [136]。2.2 领域泛化领域泛化旨在将模型泛化到未见过的目标域,而无需在训练期间访问目标数据。DG方法可以大致分为数据操作、表示学习和学习策略 [2]。数据操作方法(如 [137])增强了数据的多样性,而表示学习方法 [138] 则专注于提取领域不变特征。此外,元学习 [12] 和自监督学习 [139] 等学习策略也展示了跨领域的泛化性能提升。Shu等人 [140] 还解决了目标域具有私有类的开放集DG问题。2.3 测试时适应测试时适应(TTA)旨在在线适应预训练的源域模型,以应对分布偏移,而无需访问源数据或目标标签。在线TTA方法 [141, 142] 使用无监督目标(如熵最小化和伪标签)更新特定模型参数。鲁棒TTA方法 [143, 144] 解决了更复杂和实际的场景,包括标签偏移、单样本适应和混合域偏移。持续TTA方法 [145, 146] 针对测试时遇到的持续和演化的分布偏移。有关TTA的更多信息,请参阅 [147, 148]。2.4 多模态学习多模态学习利用不同模态的互补优势来增强表示学习和上下文理解。主要的多模态学习方向包括多模态表示学习 [149, 150]、融合方法 [151, 152]、对齐 [153, 154] 等。有关多模态学习的更多信息,请参阅 [155, 156]。2.5 自监督学习自监督学习(SSL)旨在通过从预训练任务中获得监督信号来从未标记数据中学习,例如预测变换 [157, 158]、重建缺失组件 [159, 160] 或优化对比目标 [161, 162]。通过捕捉内在数据结构,SSL能够学习鲁棒和领域不变的表示,使其成为DA和DG的重要组成部分。在多模态背景下,SSL也通过多模态对齐 [163]、跨模态翻译 [164] 和相对范数对齐 [165] 等任务得到应用。这些预训练任务已有效集成到MMDA和MMDG框架中,包括最近的方法如 [16, 29]。有关SSL的更多信息,请参阅现有文献 [166, 167]。2.6 基础模型基础模型是在大量数据集上预训练的大规模模型,可作为广泛下游任务的通用起点。这些模型表现出强大的泛化能力,使其能够以最小的微调适应各种应用。著名的例子包括语言模型如GPT [168]、视觉模型如SAM [169] 和DINO [170]、视觉-语言模型如CLIP [14] 和Flamingo [171]、以及生成模型如稳定扩散 [19]。有关基础模型的更多信息,请参阅 [172]。3. 多模态领域适应多模态领域适应(MMDA)旨在将模型从源域适应到目标域,同时利用多模态数据(如视频、音频和光流)。MMDA在适应过程中同时使用来自源域的标记数据和来自目标域的未标记数据。

3.1 问题定义

其中 EE 表示期望,ℓ(⋅,⋅)ℓ(⋅,⋅) 是损失函数。现有的MMDA研究主要集中在两个任务上——使用视频、音频和光流模态的动作识别任务,以及使用LiDAR点云和RGB图像的语义分割任务。我们将在以下章节中分别讨论它们。3.2 动作识别的MMDA在本节中,我们详细介绍现有的动作识别MMDA方法,并将其分为领域对抗学习、对比学习和跨模态交互。

3.2.1 领域对抗学习

其中 CC 是自监督对应分类头,cc 是定义模态是否对应的二元标签。Zhang等人 [25] 通过对抗学习和语义保留策略生成缺失的模态,从而在目标模态缺失的情况下选择可靠的伪标签目标样本。Yin等人 [26] 利用混合样本对抗学习捕捉领域不变的时间特征,并通过动态模态知识蒸馏提高跨模态适应性。3.2.2 对比学习对比学习 [174] 通过将正样本对拉近、负样本对推远来训练模型区分正负样本。它用于学习有效的特征表示,从而实现更好的迁移性能。例如,Song等人 [27] 使用自监督对比学习联合对齐剪辑和视频级特征,同时最小化视频级领域差异,增强类别感知对齐和跨领域泛化。Kim等人 [28] 利用模态和领域特定的采样策略进行对比学习,联合正则化跨模态和跨领域特征表示。3.2.3 跨模态交互跨模态交互方法通过在适应过程中促进模态之间的信息交换来增强多模态特征学习,使模型能够捕捉跨模态的互补和相互依赖关系。例如,Lv等人 [30] 将模态特定分类器建模为教师-学生子模型,使用基于原型的可靠性测量进行自适应教学和异步课程学习,并采用可靠性感知融合进行鲁棒的最终决策。Huang等人 [31] 通过自熵引导的Mixup [11] 生成合成样本,并使用多模态和时间相对对齐将其与假设的源类样本对齐。Zhang等人 [32] 提出了音频自适应编码器和音频注入识别器,以应对跨场景、视角和演员的动作识别领域偏移。通过利用领域不变的音频活动信息,他们通过缺失活动学习细化视觉表示,并通过视觉线索增强无声任务识别。Yang等人 [175] 表明,在跨领域对齐之前通过跨模态交互增强每个模态的可迁移性比直接对齐多模态输入更有效。最近,Dong等人 [29] 通过设计两个自监督任务——掩码跨模态翻译和多模态拼图——来解决多模态开放集领域适应问题,以学习鲁棒的多模态特征进行泛化和开放类检测,并通过熵加权机制平衡模态特定损失。3.3 语义分割的MMDA在本节中,我们详细介绍现有的语义分割MMDA方法,并将其分为xMUDA及其扩展、领域对抗学习和跨模态交互。3.3.1 xMUDA及其扩展

通过数据增强扩展。 数据增强技术已被探索用于增强xMUDA中的跨模态对齐。例如,Li等人 [33] 提出了一种多模态风格迁移策略和目标感知教师框架,以在源和合成的目标风格数据上进行跨领域和跨模态知识蒸馏。Chen等人 [34] 使用CutMix [179] 和Mix3D [180] 增强2D和3D训练数据,促进2D-3D交互和域内跨模态学习。最近,Cao等人 [35] 将xMUDA的多模态学习管道与从现实场景中收集的3D稀有对象和来自SAM [169] 模型的像素级监督相结合,解决了不平衡监督问题,并显著提高了稀有对象分割。通过融合扩展。 Wu等人 [181] 通过使用融合的跨模态表示进行知识蒸馏,执行跨模态和跨领域对齐,最大化异构模态之间的相关性和互补性以减轻领域偏移。Cardace等人 [36] 通过将深度特征输入到2D分支并动态丰富3D网络的RGB特征来扩展xMUDA。通过两个分支的中间融合,有效利用了内在的跨模态互补性。Simons等人 [37] 通过动态选择融合和未融合的校正伪标签进行自训练,增强了xMUDA,以解决3DSS的无源MMDA。通过跨模态交互扩展。 Zhang等人 [38] 提出了平面到空间和离散到纹理的自监督任务,以在混合领域设置下训练模型,增强模态特定学习并减轻领域偏移。Xing等人 [39] 通过跨模态对比学习和邻域特征聚合模块增强了xMUDA,加强了跨领域的2D-3D一致性,同时捕捉了更丰富的上下文信息。Zhang等人 [40] 通过引入掩码跨模态建模来减轻大领域差距,并引入动态跨模态滤波器进行特征匹配,使方法能够动态利用更合适的2D-3D互补性并提高整体适应性。3.3.2 领域对抗学习Peng等人 [41] 引入了稀疏到密集特征对齐,用于域内点-像素对应,并在跨领域和跨模态上进行对抗学习以实现跨领域对齐,使其成为第一个在两级上解决跨模态学习的方法。相比之下,Liu等人 [42] 将对抗学习集中在图像模态上,并提出了一种阈值移动策略以减轻推理期间的数据不平衡。Man等人 [43] 引入了一种蒸馏框架,通过深度估计和BEV嵌入的特征监督将知识从LiDAR教师模型转移到相机学生模型。多阶段对抗学习进一步对齐跨领域的特征空间,使单目3D感知在显著领域偏移下保持准确。3.3.3 跨模态交互Vobecky等人 [44] 引入了一种跨模态无监督方法,用于2D语义分割(2DSS),使用未注释的配对LiDAR和相机数据。它首先基于几何特性提取3D一致的对象段,并应用投影和聚类生成2D伪地面实况,从而实现跨模态空间约束的知识蒸馏。Yin等人 [45] 通过集成多模态辅助网络解决了2DSS的无源MMDA。该方法采用中间融合,并强制增强的深度-RGB对之间的预测一致性,以实现跨模态学习。Rizzoli等人 [46] 将深度数据集成到视觉变换器的输入、特征和输出阶段。颜色和深度风格转移实现了早期领域对齐,而跨模态自注意力生成混合特征以更好地进行语义提取。Bultmann等人 [182] 实现了LiDAR、RGB和热传感器模态的实时语义推理和融合,用于语义分割和对象检测,使用后期融合方法和标签传播以适应跨传感器和领域。3.4 其他任务的MMDA除了动作识别和语义分割,MMDA还在其他任务中得到了探索。Ma等人 [47] 通过使用堆叠注意力学习语义表示并应用多通道约束增强类别区分,解决了跨领域对象和事件识别任务的MMDA。Liu等人 [48] 使用基于张量的对齐模块探索领域和模态之间的关系,并使用动态领域生成器创建过渡样本,在多模态情感分析和视频文本分类任务中实现了卓越性能。最近,Zhang等人 [49] 通过独立学习每个模态的最佳表示并通过动态加权自适应平衡跨模态领域对齐,解决了情感识别的MMDA。

4. 多模态测试时适应

与多模态领域适应(MMDA)不同,多模态测试时适应(Multimodal Test-Time Adaptation, MMTTA)旨在在线适应预训练的源模型到目标域,而无需访问源域数据。MMTTA的核心挑战在于如何在测试时动态调整模型参数,以应对目标域的分布偏移。

5. 多模态领域泛化

与多模态领域适应和多模态测试时适应不同,多模态领域泛化(Multimodal Domain Generalization, MMDG)提出了更具挑战性的问题设置。在MMDG中,模型仅在具有多个模态的源域上训练,以泛化到未见过的域,而无需在训练期间暴露目标域数据。

6. 借助多模态基础模型进行领域适应和泛化

随着大规模预训练多模态基础模型(MFMs)的出现,如CLIP [14]、稳定扩散 [19] 和Segment Anything Model (SAM) [169],许多研究探索了利用这些模型来增强泛化能力。这些方法可以分为三个主要方向:数据增强、知识蒸馏和学习策略。 7 多模态基础模型的适应

尽管多模态基础模型(MFMs)表现出强大的零-shot预测能力,但图像和文本分布之间的差异,以及训练目标的局限性,仍然制约着它们的泛化能力。为了解决这些问题,已经提出了多种迁移学习策略,如提示调优(prompt tuning)和特征适配器(feature adapters),以便将MFMs适应到下游任务中。图8展示了基于提示和基于适配器的适应之间的区别。

8 数据集与应用 多模态适应与泛化已在多个应用领域中进行研究,包括动作识别、语义分割、图像分类、情感分析、行人重识别、深度补全等。常见数据集的概述见表1,图9展示了来自三个动作识别数据集的领域偏移示例。

结论

在分布偏移下,将预训练的多模态模型适应到目标领域是机器学习中的一个新兴且关键的挑战。本综述全面概述了多模态领域适应、多模态测试时适应和多模态领域泛化的最新进展,重点突出推动该领域发展的关键挑战、方法论和应用。此外,我们强调了多模态基础模型在提升领域适应与泛化任务中的关键作用,突出了它们在解决跨模态的现实世界挑战中的潜力。通过回顾现有方法、数据集和应用,我们识别出未来研究的几个关键方向,包括开发更好的基准和数据集、处理动态环境中的标签偏移问题,以及进一步探索理论分析。随着该领域的不断发展,这些见解为推动多模态模型在现实场景中的鲁棒性和效率提供了宝贵的基础。

成为VIP会员查看完整内容
7

相关内容

《面向基础模型的高效参数微调》综述
专知会员服务
17+阅读 · 1月24日
《多模态对齐与融合》综述
专知会员服务
70+阅读 · 2024年11月27日
大型模型中的参数高效微调:方法论综述
专知会员服务
58+阅读 · 2024年11月3日
《大语言模型的数据合成与增强综述》
专知会员服务
40+阅读 · 2024年10月19日
《基于扩散模型的条件图像生成》综述
专知会员服务
39+阅读 · 2024年10月1日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
67+阅读 · 2024年8月6日
数据与多模态大型语言模型的协同作用综述
专知会员服务
51+阅读 · 2024年7月13日
大型语言模型的景观:范式与微调策略的全面综述和分析
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
12+阅读 · 2020年9月9日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
164+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
425+阅读 · 2023年3月31日
Arxiv
71+阅读 · 2023年3月26日
Arxiv
155+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《面向基础模型的高效参数微调》综述
专知会员服务
17+阅读 · 1月24日
《多模态对齐与融合》综述
专知会员服务
70+阅读 · 2024年11月27日
大型模型中的参数高效微调:方法论综述
专知会员服务
58+阅读 · 2024年11月3日
《大语言模型的数据合成与增强综述》
专知会员服务
40+阅读 · 2024年10月19日
《基于扩散模型的条件图像生成》综述
专知会员服务
39+阅读 · 2024年10月1日
西工大最新《多模态大型语言模型》全面综述
专知会员服务
67+阅读 · 2024年8月6日
数据与多模态大型语言模型的协同作用综述
专知会员服务
51+阅读 · 2024年7月13日
大型语言模型的景观:范式与微调策略的全面综述和分析
相关资讯
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员