【南洋理工-CVPR2022】视觉语言模型的条件提示学习 - 专知

会员服务 ·

0

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

2022 年 3 月 13 日 专知

随着功能强大的预训练视觉语言模型(如CLIP)的兴起，研究如何使这些模型适应下游数据集变得非常必要。最近提出的一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域，以适应预训练的视觉语言模型。具体来说，CoOp将提示中的上下文单词转换为一组可学习的向量，并且仅使用少量标记的图像进行学习，可以在经过大量调整的手动提示中实现巨大的改进。在我们的研究中，我们确定了CoOp的一个关键问题: 学习的上下文不能泛化到同一数据集内更广泛的不可见类，这表明在训练期间观察到的CoOp基类过拟合。为了解决这个问题，我们提出了条件上下文优化(CoCoOp)，它通过进一步学习一个轻量级神经网络来为每幅图像生成一个输入条件标记(向量)来扩展CoCoOp。与CoOp的静态提示相比，我们的动态提示适应每个实例，因此对类迁移不那么敏感。大量的实验表明，对于不可见的类，CoCoOp的泛化效果要比CoOp好得多，甚至在单个数据集之外还显示出很好的可迁移性; 具有较强的域泛化性能。代码可在https://github.com/ KaiyangZhou/CoOp

https://www.zhuanzhi.ai/paper/8fc04028caefdfdb427ca26bc1005d6e

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“CPL” 就可以获取《【南洋理工-CVPR2022】视觉语言模型的条件提示学习》专知下载链接

请扫码加入专知人工智能群（长按二维码），或者加专知小助手微信（zhuanzhi02），加入专知主题群（请备注主题类型：AI、NLP、CV、 KG、论文等）交流~

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

1

相关内容

视觉语言模型

视觉语言模型

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【华南理工大学-CVPR2020-Oral】通过结构正则化深度聚类实现无监督域自适应

专知会员服务

56+阅读 · 2020年3月20日

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知

2+阅读 · 2022年3月14日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知

1+阅读 · 2022年3月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知

0+阅读 · 2021年3月13日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于共聚焦干涉的表面等离子体在液态环境中的显微成像与传感方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

颗粒增强金属基复合材料搅拌摩擦焊残余应力的多尺度模拟

国家自然科学基金

0+阅读 · 2013年12月31日

Co/Pt多层膜反常霍尔效应中周期性振荡机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

恶性肿瘤生物适形调强放疗PET/CT/MRI靶区智能勾画

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于结构不变量的航空遥感图像快速匹配模型和匹配策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

新型Janus乳液的形成机理研究及可控微/纳双面结构的构筑

国家自然科学基金

0+阅读 · 2012年12月31日

变分法和偏微分方程理论在图像重建中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

跨姿态人脸识别研究

国家自然科学基金

1+阅读 · 2011年12月31日

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations

Arxiv

0+阅读 · 2022年4月20日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月18日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

Talking-Heads Attention

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

VIP会员

相关主题

视觉语言模型

条件提示学习

相关VIP内容

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【华南理工大学-CVPR2020-Oral】通过结构正则化深度聚类实现无监督域自适应

专知会员服务

56+阅读 · 2020年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《海战法：海战中的人工智能与自主系统》最新45页

《美军条令：行动后评估》2025最新36页

中文版 | 先进通信技术

《国防系统提升可靠性与维护性评估效能的实践准则》最新64页

相关资讯

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

【CVPR2022】基于粗-精视觉Transformer的仿射医学图像配准

专知

4+阅读 · 2022年4月2日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

【CVPR2022】EDTER：基于Transformer的边缘检测

【CVPR2022】EDTER：基于Transformer的边缘检测

专知

2+阅读 · 2022年3月18日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知

1+阅读 · 2022年3月16日

【CVPR2022】双曲图像分割

【CVPR2022】双曲图像分割

专知

2+阅读 · 2022年3月14日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知

1+阅读 · 2022年3月4日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知

2+阅读 · 2021年4月16日

【CVPR2021】背景鲁棒的自监督视频表征学习

【CVPR2021】背景鲁棒的自监督视频表征学习

专知

0+阅读 · 2021年3月13日

相关基金

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于共聚焦干涉的表面等离子体在液态环境中的显微成像与传感方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

颗粒增强金属基复合材料搅拌摩擦焊残余应力的多尺度模拟

国家自然科学基金

0+阅读 · 2013年12月31日

Co/Pt多层膜反常霍尔效应中周期性振荡机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

恶性肿瘤生物适形调强放疗PET/CT/MRI靶区智能勾画

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于结构不变量的航空遥感图像快速匹配模型和匹配策略研究

国家自然科学基金

0+阅读 · 2012年12月31日

新型Janus乳液的形成机理研究及可控微/纳双面结构的构筑

国家自然科学基金

0+阅读 · 2012年12月31日

变分法和偏微分方程理论在图像重建中的应用

国家自然科学基金

0+阅读 · 2012年12月31日

跨姿态人脸识别研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

Uncertainty-based Cross-Modal Retrieval with Probabilistic Representations

Arxiv

0+阅读 · 2022年4月20日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月18日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

Talking-Heads Attention

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

大家都在搜

生成式人工智能

军事人工智能

软件无线电

久别重逢话双塔

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员