摘要—视觉—语言模型(Vision-Language Models, VLMs)在广泛任务中展现出卓越的泛化能力。然而,当直接应用于特定下游场景且未经过任务特定的适配时,其性能往往并不理想。为了在保持数据高效性的同时提升其实用性,近年来的研究日益聚焦于不依赖标注数据的无监督适配方法。尽管这一方向的关注度不断上升,但仍缺乏一个面向任务的、专门针对无监督 VLM 适配的统一综述。为弥补这一空白,本文对该领域进行了全面且结构化的梳理。我们提出了一种基于无标注视觉数据可得性及其性质的分类方法,将现有方法划分为四种核心范式:无数据迁移(Data-Free Transfer,无数据)、无监督领域迁移(Unsupervised Domain Transfer,充足数据)、情景式测试时适配(Episodic Test-Time Adaptation,批量数据)和在线测试时适配(Online Test-Time Adaptation,流式数据)。在这一框架下,我们分析了各范式对应的核心方法与适配策略,旨在构建对该领域的系统化理解。此外,我们还回顾了多种应用场景下的代表性基准,并指出了开放挑战与未来研究的潜在方向。相关文献的持续更新仓库可访问:https://github.com/tim-learn/Awesome-LabelFree-VLMs。 关键词—无监督学习,测试时适配,多模态学习,视觉—语言模型。 I. 引言

视觉—语言模型(Vision-Language Models, VLMs),如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4],凭借强大的跨模态推理能力,已在学术界和工业界引起了广泛关注。这类模型通过大规模数据集 [5] 学习图像—文本的联合表示,并在多种任务中展现出令人印象深刻的零样本(zero-shot)性能与泛化能力。VLMs 已成功应用于多个领域,包括自动驾驶 [6]、机器人技术 [7]、异常检测 [8] 以及跨模态检索 [9]。 然而,由于预训练阶段无法覆盖下游任务与环境的全部多样性,将 VLMs 适配于特定应用仍是一项核心挑战。早期的研究主要依赖有监督微调 [10]–[13],利用带标注样本挖掘更多知识。尽管该方法在性能上有效,但依然面临高标注成本,以及在训练与测试数据存在分布偏移(distribution shift)[14] 时的性能下降问题。为应对这些局限,越来越多的研究开始探索无监督适配技术 [15]–[20]。这些方法——通常被称为零样本推理 [21]–[23]、测试时方法(test-time methods)[18], [24], [25],或无监督调优 [17], [26], [27]——旨在无需昂贵标注即可提升 VLMs 在下游任务中的表现。实践表明,这类方法在图像分类 [15], [17], [18]、图像分割 [16], [28], [29]、医学影像诊断 [30], [31] 以及动作识别 [32], [33] 等任务中均取得了显著成效。 鉴于该研究领域的快速发展,本文旨在对现有 VLM 无监督适配方法进行全面且结构化的综述。据我们所知,这是首个围绕无标注视觉数据可得性提出分类体系的工作——这一因素在实际部署中至关重要,却往往被忽视。如图 1 所示,我们将现有方法划分为四种范式: 1. 无数据迁移(Data-Free Transfer)[15], [16], [21]:仅利用文本类别名称来适配模型; 1. 无监督领域迁移(Unsupervised Domain Transfer)[17], [34], [35]:利用来自下游任务的充足无标注数据; 1. 情景式测试时适配(Episodic Test-Time Adaptation)[18], [24], [36]:针对一批测试样本进行适配; 1. 在线测试时适配(Online Test-Time Adaptation)[19], [23], [25]:应对流式到达的测试数据。

这一分类体系为理解 VLM 无监督适配的研究版图提供了系统化框架,有助于实践者选择合适的技术路径,同时也有助于未来在同一范式下进行公平比较。 本文的组织结构如图 2 所示:第 II 节概述了与 VLM 无监督学习相关的研究主题;第 III 节介绍了 VLM 的零样本推理,并提出基于无标注视觉数据可得性的分类体系;第 IV–VII 节为本文核心内容,分别分析无数据迁移、无监督领域迁移、情景式测试时适配以及在线测试时适配中的现有方法;第 VIII 节探讨无监督技术在多种应用场景中的实践及相关基准,扩展对其实际意义和应用价值的认识;第 IX 节总结该领域的新兴趋势,并指出可能激发未来研究的关键科学问题。 与已有综述的对比。 近年来,一些综述性工作 [37]–[40] 涉及了无监督适配与 VLM 微调的不同方面。现有研究 [40]–[42] 多聚焦于单模态模型迁移,虽然对该领域进行了深入分析,但对 VLM 的覆盖较为有限。较早的工作 [37] 讨论了 VLM 的预训练阶段,并简要分析了其在视觉任务上的微调方法;另一篇综述 [38] 涉及多模态模型的适配与泛化,但粒度较为粗略;近期工作 [39] 从参数空间视角审视 VLM 下游任务的泛化,并回顾了相关方法。尽管这些综述提供了有价值的见解,但本文首次基于无标注视觉数据可得性提出了分类体系,并在每个范式下深入分析前沿技术,我们认为这是对该领域的一个新颖且关键的补充,尤其对 VLM 的实际部署具有重要意义。

成为VIP会员查看完整内容
0

相关内容

视觉语言模型泛化到新领域:全面综述
专知会员服务
34+阅读 · 6月27日
视觉通用模型综述
专知会员服务
28+阅读 · 6月12日
三维场景生成:综述
专知会员服务
19+阅读 · 5月9日
面向医学的多模态大型语言模型:全面综述
专知会员服务
21+阅读 · 5月1日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
定制化大型语言模型的图检索增强生成综述
专知会员服务
34+阅读 · 1月28日
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
大型语言模型疾病诊断综述
专知会员服务
31+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
知识增强预训练语言模型:全面综述
专知会员服务
93+阅读 · 2021年10月19日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
474+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
视觉语言模型泛化到新领域:全面综述
专知会员服务
34+阅读 · 6月27日
视觉通用模型综述
专知会员服务
28+阅读 · 6月12日
三维场景生成:综述
专知会员服务
19+阅读 · 5月9日
面向医学的多模态大型语言模型:全面综述
专知会员服务
21+阅读 · 5月1日
模拟真实世界:多模态生成模型的统一综述
专知会员服务
31+阅读 · 3月7日
定制化大型语言模型的图检索增强生成综述
专知会员服务
34+阅读 · 1月28日
大规模语言模型的个性化:综述
专知会员服务
42+阅读 · 2024年11月4日
大型语言模型疾病诊断综述
专知会员服务
31+阅读 · 2024年9月21日
用于疾病诊断的大型语言模型:范围综述
专知会员服务
26+阅读 · 2024年9月8日
知识增强预训练语言模型:全面综述
专知会员服务
93+阅读 · 2021年10月19日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员