摘要——近年来,视觉-语言预训练(Vision-Language Pretraining)作为一项融合视觉与文本模态优势的变革性技术,催生了强大的视觉-语言模型(VLMs)。依托于网络规模的预训练数据,这些模型展现出卓越的零样本推理能力。然而,在面对特定领域或专业任务时,其性能常常出现显著下降。为解决该问题,研究社区日益关注如何将 VLM 中蕴含的丰富知识迁移或泛化到多样的下游应用中。 本文旨在全面梳理 VLM 泛化的研究设定、方法体系、评测基准与实验结果。我们首先分析典型的 VLM 架构,并依据迁移模块的不同,将现有文献划分为基于 Prompt(提示)、基于参数、以及基于特征的方法三大类。随后,结合经典迁移学习(Transfer Learning, TL)设定,进一步总结与探讨各类方法的差异与特点,提出 VLM 时代下迁移学习的新解读。此外,本文还系统介绍了主流 VLM 泛化评测基准,并对各类方法在不同任务中的表现进行了详尽对比。

随着大规模通用预训练的不断演进,本文也探讨了视觉-语言模型与最新多模态大语言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之间的关联与差异。通过从“泛化”这一全新且实用的视角系统梳理视觉-语言研究的快速进展,本文有助于清晰描绘当前与未来多模态研究的整体格局。 关键词——视觉-语言模型,迁移学习,提示调优,鲁棒微调,领域泛化,测试时自适应,无监督领域适应,多模态大语言模型

1 引言

深度神经网络已在众多实际应用中取得显著成果。以视觉模型为例,从 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型规模与表示能力都得到了极大提升。然而,高效训练这些大规模模型往往需要大量标注数据与巨大的计算资源。为了解决这一问题,“基础模型”(foundation model)的概念应运而生——即在大规模数据集上预训练通用模型,以便将其知识迁移到各种下游任务中【4】。例如,预训练于 ImageNet【5】上的 ResNet 系列已成为图像分类【2】、目标识别【6】等视觉任务的重要基石。 自然语言处理领域也经历了类似的发展,从 Transformer【7】、BERT【8】到 GPT-2【9】与 GPT-3【10】,均在各自的单模态任务中取得卓越表现,但它们本质上缺乏对多模态信息的感知与推理能力。 如图 1 所示,对比式语言-图像预训练(contrastive language-image pretraining)范式的出现【11】彻底重塑了视觉-语言学习格局。Radford 等人提出的 CLIP【11】模型利用 4 亿网页爬取的图文对进行对比学习:将语义匹配的图文拉近、不匹配的拉远,从而实现了跨任务的强大零样本泛化能力,覆盖图像分类【11】、目标检测【12】、视频检索【13】等任务。后续研究通过扩大与去噪预训练数据集【14】【15】【16】、探索多样的预训练策略【17】【18】、引入多语言数据【19】【20】【21】,进一步增强了 VLM 的能力。 尽管 VLM 在通用任务上表现出色,但其预训练知识在特定领域的下游任务上泛化能力有限。若无合适的迁移方式,预训练的 VLM 往往难以处理分布外(OOD)数据,如遥感图像【22】或精细类别图像【23】【24】。传统的“预训练-微调”范式仍适用,但在 VLM 中直接微调可能破坏其对齐的视觉-语言表示,导致性能下降【25】【26】【27】。 因此,如何以尽可能低的计算与标注成本将 VLM 中的知识优雅地泛化至下游任务,已成为研究热点。考虑到 VLM 的多模态特性,研究者们尝试将单模态领域成熟的迁移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知识蒸馏【30】,扩展应用于 VLM【26】【31】【32】【33】。借助其庞大的通识知识,VLM 正逐步成为“任务无关型”求解器,在无监督领域适应(UDA)【34】【35】【36】、领域泛化(DG)【37】【38】【39】、测试时自适应(TTA)【40】【41】【42】等迁移学习场景中设立了新基线。 面对这种趋势,我们提出了关键问题:在 VLM 时代,知识迁移有何不同?

为此,本文对 VLM 的泛化能力展开系统文献综述。


研究动机与贡献

现有综述多聚焦于 VLM 的预训练阶段,如模型结构、预训练目标与数据集【43】【44】【45】。虽然部分工作提及了迁移学习【43】,但其覆盖面有限,尤其缺乏对不同迁移设定之间差异的探讨。本文是首个专注于 VLM 迁移与泛化能力 的系统综述。我们以主流的双分支架构(如 CLIP【11】)为基础,识别并归类迁移的关键模块,具体如下: 1. Prompt-based 方法:仅调节文本提示嵌入以控制模型行为【31】【32】【40】; 1. Parameter-based 方法:有策略地更新预训练参数【46】【47】【48】,或通过知识蒸馏引入新参数【33】【38】【39】; 1. Feature-based 方法:对提取到的特征进行后处理,如引入可学习模块【26】【35】或构建免训练缓存机制【27】【41】【49】。

我们结合迁移学习研究中的经典设定【4】【50】【51】,重新审视这些 VLM 方法,并分析其在不同迁移设定中的特性差异。随后,我们系统汇总了适用于各类迁移任务的主流基准数据集,并提供基于模型结构与方法设计的性能比较。


同时,本文还涵盖了 VLM 与多模态大语言模型(MLLM)之间的融合。近年来,大语言模型(LLM)取得突破性进展【52】【53】【54】【55】,将对齐语言的视觉编码器(如 CLIP)与 LLM 相连接,并以大规模多模态指令数据进行训练,构建出视觉-语言大模型(MLLM)。这些模型在视频理解、视觉问答、图像字幕、分割与识别等任务中展现出强大的泛化能力【18】【56】【57】【58】。 作为另一类通用视觉-语言模型,本文对 MLLM 的基本构建框架、模型类型、使用的预训练数据与目标,以及其在多任务中的表现进行全面总结,并呈现当前该领域的研究图谱(如图 3 所示)。


综述贡献总结如下:

系统回顾 VLM 泛化研究进展:涵盖无监督领域适应、领域泛化、小样本适应、测试时自适应等迁移学习任务;据我们所知,这是首个专注于 VLM 泛化的综述工作。 1. 提出三类关键迁移方法分类:Prompt-based、Parameter-based 与 Feature-based,并在各类迁移设定下深入分析其技术细节与适用场景。 1. 收集主流评测基准并对比方法性能:从泛化设定、模型结构与设计角度出发,提供公平、系统的性能评估。 1. 引入并分析 MLLM 的发展与代表模型:总结其结构、组成模块、泛化能力、训练数据与目标,为理解视觉-语言研究的前沿进展提供参考。 1. 提出当前挑战与未来方向:识别现阶段研究瓶颈,并展望可行的研究路径与潜力。


文章结构如下:

第 2 节介绍 VLM 相关基础知识及所涉及的迁移学习设定; * 第 3 节讨论 Prompt-based 方法,分为训练时提示(3.1)与测试时提示(3.2); * 第 4 节介绍 Parameter-based 方法,包括参数微调(4.1)与知识蒸馏(4.2); * 第 5 节探讨 Feature-based 方法,包括可学习适配器(5.1)与免训练缓存机制(5.2); * 第 6 节总结主流基准与方法性能评估; * 第 7 节介绍现代 LLM 如何增强与泛化 VLM,构成 MLLM; * 第 8 节总结当前进展并讨论未来的研究方向。

成为VIP会员查看完整内容
1

相关内容

视觉通用模型综述
专知会员服务
19+阅读 · 6月12日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
29+阅读 · 3月5日
定制化大型语言模型的图检索增强生成综述
专知会员服务
34+阅读 · 1月28日
视觉中的生成物理人工智能:综述
专知会员服务
33+阅读 · 1月26日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
《多模态对齐与融合》综述
专知会员服务
84+阅读 · 2024年11月27日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
37+阅读 · 2024年7月28日
基于模型的强化学习综述
专知
40+阅读 · 2022年7月13日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
深度学习时代的目标检测算法综述
AI前线
12+阅读 · 2017年9月22日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
468+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
视觉通用模型综述
专知会员服务
19+阅读 · 6月12日
当持续学习遇上多模态大型语言模型:综述
专知会员服务
29+阅读 · 3月5日
定制化大型语言模型的图检索增强生成综述
专知会员服务
34+阅读 · 1月28日
视觉中的生成物理人工智能:综述
专知会员服务
33+阅读 · 1月26日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
38+阅读 · 2024年12月7日
《多模态对齐与融合》综述
专知会员服务
84+阅读 · 2024年11月27日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
37+阅读 · 2024年7月28日
相关资讯
基于模型的强化学习综述
专知
40+阅读 · 2022年7月13日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
深度学习时代的目标检测算法综述
AI前线
12+阅读 · 2017年9月22日
相关基金
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员