视觉中怎么用提示？南洋理工CVPR2023《视觉提示》教程，附290页ppt

源自自然语言处理的新范式——提示法，近来在计算机视觉领域掀起一股浪潮，为各种计算机视觉应用，如图像识别和图像生成，带来颠覆性的变革。与传统的一次确定、持续学习的架构（如针对特定类别集进行训练的线性分类器）相比，提示法提供了更大的灵活性和更多用于创新应用的机会。它允许模型通过调整文本指令或修改模型输入空间中少量参数（同时保持预训练参数的大部分不变）来执行新任务，如识别新类别。这一范式显著地推动了人工智能与人类对话交互达到前所未有的水平。在短时间内，提示法在广泛的问题领域中展示了其有效性，包括图像分类、物体检测、图像生成和编辑、视频分析和机器人控制。在本教程中，我们的目标是通过建立计算机视觉与自然语言处理研究之间的联系，为提示法提供全面的背景知识。我们还将回顾使用提示法解决计算机视觉问题的最新进展。

构建最先进的视觉识别系统的常见方法是使用离散标签来训练视觉模型，以预测固定的对象类别集合（He et al., 2016; Dosovitskiy et al., 2021）。从技术角度看，这是通过将视觉模型（如ResNet（He et al., 2016）或ViT（Dosovitskiy et al., 2021））生成的图像特征与被视为视觉概念的固定权重集合相匹配来实现的，这些权重是随机初始化的。虽然训练类别通常具有文本形式，如“金鱼”或“卫生纸”，但为了简化交叉熵损失的计算，它们会被转换为离散标签，这使得文本中包含的语义在很大程度上未被利用。这种学习范式限制了视觉识别系统仅能处理封闭集的视觉概念，使它们无法处理新的类别，因为学习新的分类器需要额外的数据。

最近，像CLIP（Radford等人，2021年）和ALIGN（Jia等人，2021年）这样的视觉-语言预训练方法作为视觉表示学习的有前景的替代方案而出现。其主要思想是使用两个单独的编码器（每种模态一个）来对齐图像和原始文本。例如，CLIP和ALIGN都将学习目标制定为对比损失，这种损失会在特征空间中拉近图像及其文本描述，同时推离不匹配的配对。通过大规模的预训练，模型可以学习多样化的视觉概念，并且可以通过提示轻松地转移到任何下游任务（Radford et al., 2021; Jia et al., 2021; F¨urst et al., 2021; Li et al., 2021; Singh et al., 2021; Yuan et al., 2021）。特别是，对于任何新的分类任务，人们可以首先通过给文本编码器提供描述任务相关类别的句子来合成分类权重，然后与图像编码器生成的图像特征进行比较。

我们观察到，对于预训练的视觉-语言模型，文本输入（称为提示）在下游数据集中起着关键作用。然而，确定正确的提示是一项不简单的任务，通常需要花费大量时间来调整词语——词语的微小变化可能会对性能产生巨大影响。例如，对于Caltech101（图1(a)，第2个与第3个提示），在类别标记前加上“a”可以提高超过5%的准确度。此外，提示工程还需要对任务以及理想情况下语言模型的底层机制有先验知识。图1(b-d)中的例子说明，添加与任务相关的上下文可以带来显著的改进，即，对于Flowers102添加“flower”，对于DTD添加“texture”，对于EuroSAT添加“satellite”。调整句子结构可以进一步提高性能，例如，对于Flowers102，在类别标记后放置“a type of flower”，对于DTD，只保留上下文中的“texture”，并且对于EuroSAT，在“satellite photo”前加上“centered”。然而，即使进行了大量调整，也无法保证所得到的提示对这些下游任务来说是最优的。

受到自然语言处理（NLP）中最近的提示学习研究的启发（Shin et al., 2020; Jiang et al., 2020; Zhong et al., 2021），我们提出了一种简单的方法，称为上下文优化（Context Optimization，CoOp）1，用于自动化提示工程，特别是针对预训练的视觉-语言模型。具体来说，CoOp使用可学习的向量来对提示的上下文词进行建模，这些向量可以用随机值或预训练的词嵌入进行初始化（参见图2）。我们提供了两种实现，以处理不同性质的任务：一种是基于统一上下文的，它与所有类别共享相同的上下文，并且在大多数类别上表现良好；而另一种是基于类别特定上下文的，它为每个类别学习一组特定的上下文标记，发现这对一些细粒度类别更加适用。在训练期间，我们只需使用交叉熵损失来最小化预测误差，对可学习的上下文向量进行优化，同时保持整个预训练参数不变。梯度可以通过文本编码器进行反向传播，将参数中编码的丰富知识提炼出来，用于学习与任务相关的上下文。