【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning - 专知VIP

会员服务 ·

0

CVPR 2022 · 视觉提示调整 · 中科院自动化所 · 论文 ·

2022 年 3 月 12 日

【CVPR 2022】视觉提示调整（VPT），Vision Prompt Tuning

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Vision Prompt Tuning

Xing Nie, Gaofeng Meng, Jianlong Chang, Chunlei Huo, Shiming Xiang, Qi Tian, Zhaoxiang Zhang, Chunhong Pan

在计算机视觉中，微调是一种实用的利用预先训练的视觉模型来执行下游任务的方法。然而，由于这类方法多采用低效的全局参数更新策略，以及严重依赖于高质量的下游数据，在实践中部署非常具有挑战性。最近，基于prompt learning的方法增加了与任务相关的提示以使下游任务适应预训练模型，极大地提高了许多自然语言下游任务的性能。在这项工作中，我们将这种显着的迁移能力扩展到视觉模型中，作为微调的替代方案。为此，我们提出了视觉提示调整（VPT），这是一种参数有效的视觉调整范式，可将冻结的视觉模型适应到下游数据。VPT 的关键是基于提示的调优，即只学习与输入图像连接的特定任务视觉提示，并冻结预训练模型。通过这种方式，VPT 只需训练少量额外参数即可生成紧凑且稳健的下游模型。大量实验有力地证明，我们的方法在十五个下游视觉数据集上优于当前的调整范例，包括图像损坏、对抗性示例、长尾分布和OOD问题等。

VPT结构示意图

成为VIP会员查看完整内容

32

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】可转移的稀疏对抗性攻击，Transferable Sparse Adversarial Attack

【CVPR 2022】可转移的稀疏对抗性攻击，Transferable Sparse Adversarial Attack

专知会员服务

15+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

近期必读的5篇顶会CVPR 2021【对比学习（CL）】相关论文和代码

专知会员服务

45+阅读 · 2021年5月14日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

CVer

0+阅读 · 2022年3月26日

视觉Prompt来了，效果超越微调！

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

量子位

2+阅读 · 2022年3月25日

Child-Tuning：简单有效的微调涨点方法

Child-Tuning：简单有效的微调涨点方法

夕小瑶的卖萌屋

1+阅读 · 2021年11月5日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

PaperWeekly

8+阅读 · 2021年11月2日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

Fine-tune之后的NLP新范式：Prompt越来越火，CMU华人博士后出了篇综述文章

Fine-tune之后的NLP新范式：Prompt越来越火，CMU华人博士后出了篇综述文章

夕小瑶的卖萌屋

0+阅读 · 2021年8月3日

CVPR 2020 论文大盘点-图像增强与图像恢复篇

CVPR 2020 论文大盘点-图像增强与图像恢复篇

计算机视觉life

36+阅读 · 2020年7月10日

融合视觉多信息的网络化控制系统研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩感知的高分辨率近场声全息方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

恶劣工业环境下视觉测量系统精度保持理论与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于离心力原理的力传感器新型动态标定及参数辨识方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

访存模式感知的自适应智能存储体系结构及关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

计算资源受限条件下的监控视频编码与重建方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

实速测试中低成本的功耗安全测试方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自适应视觉匹配计算模型及应用

国家自然科学基金

0+阅读 · 2012年12月31日

交通视觉中鲁棒目标检测方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

由投影重建图像的全变分正则化数值方法

国家自然科学基金

0+阅读 · 2009年12月31日

Simple and Effective Unsupervised Speech Synthesis

Simple and Effective Unsupervised Speech Synthesis

Arxiv

2+阅读 · 2022年4月20日

Few-Shot Learning with Siamese Networks and Label Tuning

Arxiv

1+阅读 · 2022年4月20日

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Arxiv

0+阅读 · 2022年4月19日

Contrastive Demonstration Tuning for Pre-trained Language Models

Arxiv

0+阅读 · 2022年4月18日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月15日

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection

Arxiv

0+阅读 · 2022年4月15日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

视觉提示调整

中科院自动化所

相关VIP内容

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

【CVPR 2022】可转移的稀疏对抗性攻击，Transferable Sparse Adversarial Attack

【CVPR 2022】可转移的稀疏对抗性攻击，Transferable Sparse Adversarial Attack

专知会员服务

15+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【ICCV2021】模态视频表示的跨模态对比学习

专知会员服务

16+阅读 · 2021年10月4日

近期必读的5篇顶会CVPR 2021【对比学习（CL）】相关论文和代码

专知会员服务

45+阅读 · 2021年5月14日

近期必读的5篇顶会CVPR 2021【视频理解】相关论文和代码

专知会员服务

38+阅读 · 2021年3月31日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

P-tuning v2: 提示微调方法可在跨规模和任务上与精调方法媲美 | 论文荐读

学术头条

2+阅读 · 2022年4月11日

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

超越传统微调！Meta新作VPT：视觉Prompt来了！冻结主干，仅调节1%参数，性能提升显著！

CVer

0+阅读 · 2022年3月26日

视觉Prompt来了，效果超越微调！

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升

量子位

2+阅读 · 2022年3月25日

Child-Tuning：简单有效的微调涨点方法

Child-Tuning：简单有效的微调涨点方法

夕小瑶的卖萌屋

1+阅读 · 2021年11月5日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

Prompt Pre-training：迈向更强大的Parameter-Efficient Prompt Tuning

PaperWeekly

8+阅读 · 2021年11月2日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

Fine-tune之后的NLP新范式：Prompt越来越火，CMU华人博士后出了篇综述文章

Fine-tune之后的NLP新范式：Prompt越来越火，CMU华人博士后出了篇综述文章

夕小瑶的卖萌屋

0+阅读 · 2021年8月3日

CVPR 2020 论文大盘点-图像增强与图像恢复篇

CVPR 2020 论文大盘点-图像增强与图像恢复篇

计算机视觉life

36+阅读 · 2020年7月10日

相关基金

融合视觉多信息的网络化控制系统研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩感知的高分辨率近场声全息方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

恶劣工业环境下视觉测量系统精度保持理论与方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于离心力原理的力传感器新型动态标定及参数辨识方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

访存模式感知的自适应智能存储体系结构及关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

计算资源受限条件下的监控视频编码与重建方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

实速测试中低成本的功耗安全测试方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

自适应视觉匹配计算模型及应用

国家自然科学基金

0+阅读 · 2012年12月31日

交通视觉中鲁棒目标检测方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

由投影重建图像的全变分正则化数值方法

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Simple and Effective Unsupervised Speech Synthesis

Simple and Effective Unsupervised Speech Synthesis

Arxiv

2+阅读 · 2022年4月20日

Few-Shot Learning with Siamese Networks and Label Tuning

Arxiv

1+阅读 · 2022年4月20日

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation

Arxiv

0+阅读 · 2022年4月19日

Contrastive Demonstration Tuning for Pre-trained Language Models

Arxiv

0+阅读 · 2022年4月18日

Multimodal Few-Shot Object Detection with Meta-Learning Based Cross-Modal Prompting

Arxiv

0+阅读 · 2022年4月16日

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

ML_LTU at SemEval-2022 Task 4: T5 Towards Identifying Patronizing and Condescending Language

Arxiv

0+阅读 · 2022年4月15日

Incremental Prompting: Episodic Memory Prompt for Lifelong Event Detection

Arxiv

0+阅读 · 2022年4月15日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

微信扫码咨询专知VIP会员