With the advent of vision-language models (VLMs) that can perform in-context and prompt-based learning, how can we design prompting approaches that robustly generalize to distribution shift and can be used on novel classes outside the support set of the prompts? In this work, we first define two types of robustness to distribution shift on VLMs, namely, robustness on base classes (the classes included in the support set of prompts) and robustness on novel classes. Then, we study the robustness of existing in-context learning and prompt learning approaches, where we find that prompt learning performs robustly on test images from base classes, while it does not generalize well on images from novel classes. We propose robust prompt learning by integrating multiple-scale image features into the prompt, which improves both types of robustness. Comprehensive experiments are conducted to study the defined robustness on six benchmarks and show the effectiveness of our proposal.


翻译:随着能够进行上下文和提示学习的视觉语言模型(VLMs)的出现,我们如何设计抵御分布转移的提示方法,并在提示的支持集之外的新类别上进行稳健通用性?在本文中,我们首先定义了VLMs上的两种分布转移稳健性,即基类别上的稳健性(包含在提示支持集中的类别)和新类别上的稳健性。然后,我们研究了现有上下文学习和提示学习方法的稳健性,发现提示学习在来自基类别的测试图像上表现良好,但不能很好地推广到来自新类别的图像上。我们提出了通过将多尺度图像特征集成到提示中来提高两种稳健性的稳健提示学习方法。 我们进行了综合实验,研究了六个基准测试的定义稳健性,并展示了我们提案的有效性。

0
下载
关闭预览

相关内容

【ICML2023】POUF:面向提示的大型预训练模型无监督微调
专知会员服务
38+阅读 · 2023年5月18日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
CVPR 2022 | 元学习在图像回归任务的表现
PaperWeekly
1+阅读 · 2022年6月11日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员