在无标注条件下适配视觉—语言模型：全面综述

摘要—视觉—语言模型（Vision-Language Models, VLMs）在广泛任务中展现出卓越的泛化能力。然而，当直接应用于特定下游场景且未经过任务特定的适配时，其性能往往并不理想。为了在保持数据高效性的同时提升其实用性，近年来的研究日益聚焦于不依赖标注数据的无监督适配方法。尽管这一方向的关注度不断上升，但仍缺乏一个面向任务的、专门针对无监督 VLM 适配的统一综述。为弥补这一空白，本文对该领域进行了全面且结构化的梳理。我们提出了一种基于无标注视觉数据可得性及其性质的分类方法，将现有方法划分为四种核心范式：无数据迁移（Data-Free Transfer，无数据）、无监督领域迁移（Unsupervised Domain Transfer，充足数据）、情景式测试时适配（Episodic Test-Time Adaptation，批量数据）和在线测试时适配（Online Test-Time Adaptation，流式数据）。在这一框架下，我们分析了各范式对应的核心方法与适配策略，旨在构建对该领域的系统化理解。此外，我们还回顾了多种应用场景下的代表性基准，并指出了开放挑战与未来研究的潜在方向。相关文献的持续更新仓库可访问：https://github.com/tim-learn/Awesome-LabelFree-VLMs。 关键词—无监督学习，测试时适配，多模态学习，视觉—语言模型。 I. 引言

视觉—语言模型（Vision-Language Models, VLMs），如 CLIP [1]、ALIGN [2]、Flamingo [3] 和 LLaVA [4]，凭借强大的跨模态推理能力，已在学术界和工业界引起了广泛关注。这类模型通过大规模数据集 [5] 学习图像—文本的联合表示，并在多种任务中展现出令人印象深刻的零样本（zero-shot）性能与泛化能力。VLMs 已成功应用于多个领域，包括自动驾驶 [6]、机器人技术 [7]、异常检测 [8] 以及跨模态检索 [9]。然而，由于预训练阶段无法覆盖下游任务与环境的全部多样性，将 VLMs 适配于特定应用仍是一项核心挑战。早期的研究主要依赖有监督微调 [10]–[13]，利用带标注样本挖掘更多知识。尽管该方法在性能上有效，但依然面临高标注成本，以及在训练与测试数据存在分布偏移（distribution shift）[14] 时的性能下降问题。为应对这些局限，越来越多的研究开始探索无监督适配技术 [15]–[20]。这些方法——通常被称为零样本推理 [21]–[23]、测试时方法（test-time methods）[18], [24], [25]，或无监督调优 [17], [26], [27]——旨在无需昂贵标注即可提升 VLMs 在下游任务中的表现。实践表明，这类方法在图像分类 [15], [17], [18]、图像分割 [16], [28], [29]、医学影像诊断 [30], [31] 以及动作识别 [32], [33] 等任务中均取得了显著成效。鉴于该研究领域的快速发展，本文旨在对现有 VLM 无监督适配方法进行全面且结构化的综述。据我们所知，这是首个围绕无标注视觉数据可得性提出分类体系的工作——这一因素在实际部署中至关重要，却往往被忽视。如图 1 所示，我们将现有方法划分为四种范式： 1. 无数据迁移（Data-Free Transfer）[15], [16], [21]：仅利用文本类别名称来适配模型； 1. 无监督领域迁移（Unsupervised Domain Transfer）[17], [34], [35]：利用来自下游任务的充足无标注数据； 1. 情景式测试时适配（Episodic Test-Time Adaptation）[18], [24], [36]：针对一批测试样本进行适配； 1. 在线测试时适配（Online Test-Time Adaptation）[19], [23], [25]：应对流式到达的测试数据。

这一分类体系为理解 VLM 无监督适配的研究版图提供了系统化框架，有助于实践者选择合适的技术路径，同时也有助于未来在同一范式下进行公平比较。本文的组织结构如图 2 所示：第 II 节概述了与 VLM 无监督学习相关的研究主题；第 III 节介绍了 VLM 的零样本推理，并提出基于无标注视觉数据可得性的分类体系；第 IV–VII 节为本文核心内容，分别分析无数据迁移、无监督领域迁移、情景式测试时适配以及在线测试时适配中的现有方法；第 VIII 节探讨无监督技术在多种应用场景中的实践及相关基准，扩展对其实际意义和应用价值的认识；第 IX 节总结该领域的新兴趋势，并指出可能激发未来研究的关键科学问题。 与已有综述的对比。 近年来，一些综述性工作 [37]–[40] 涉及了无监督适配与 VLM 微调的不同方面。现有研究 [40]–[42] 多聚焦于单模态模型迁移，虽然对该领域进行了深入分析，但对 VLM 的覆盖较为有限。较早的工作 [37] 讨论了 VLM 的预训练阶段，并简要分析了其在视觉任务上的微调方法；另一篇综述 [38] 涉及多模态模型的适配与泛化，但粒度较为粗略；近期工作 [39] 从参数空间视角审视 VLM 下游任务的泛化，并回顾了相关方法。尽管这些综述提供了有价值的见解，但本文首次基于无标注视觉数据可得性提出了分类体系，并在每个范式下深入分析前沿技术，我们认为这是对该领域的一个新颖且关键的补充，尤其对 VLM 的实际部署具有重要意义。