【南洋理工-CVPR2022】视觉语言模型的条件提示学习 - 专知VIP

会员服务 ·

11

CVPR 2022 · 视觉语言模型 · 提示学习 · 条件提示学习 · 论文 ·

2022 年 3 月 13 日

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着功能强大的预训练视觉语言模型(如CLIP)的兴起，研究如何使这些模型适应下游数据集变得非常必要。最近提出的一种名为上下文优化(CoOp)的方法将提示学习的概念引入视觉领域，以适应预训练的视觉语言模型。具体来说，CoOp将提示中的上下文单词转换为一组可学习的向量，并且仅使用少量标记的图像进行学习，可以在经过大量调整的手动提示中实现巨大的改进。在我们的研究中，我们确定了CoOp的一个关键问题: 学习的上下文不能泛化到同一数据集内更广泛的不可见类，这表明在训练期间观察到的CoOp基类过拟合。为了解决这个问题，我们提出了条件上下文优化(CoCoOp)，它通过进一步学习一个轻量级神经网络来为每幅图像生成一个输入条件标记(向量)来扩展CoCoOp。与CoOp的静态提示相比，我们的动态提示适应每个实例，因此对类迁移不那么敏感。大量的实验表明，对于不可见的类，CoCoOp的泛化效果要比CoOp好得多，甚至在单个数据集之外还显示出很好的可迁移性; 具有较强的域泛化性能。代码可在https://github.com/ KaiyangZhou/CoOp

https://www.zhuanzhi.ai/paper/8fc04028caefdfdb427ca26bc1005d6e

成为VIP会员查看完整内容

34

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

SimVLM：弱监督简单视觉语言模型预训练

SimVLM：弱监督简单视觉语言模型预训练

TensorFlow

0+阅读 · 2021年12月9日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

恶性肿瘤生物适形调强放疗PET/CT/MRI靶区智能勾画

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

新型超硬材料氮化铼的第一性原理设计

国家自然科学基金

0+阅读 · 2011年12月31日

跨姿态人脸识别研究

国家自然科学基金

1+阅读 · 2011年12月31日

Cross-stitched Multi-modal Encoders

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

VIP会员

相关主题

视觉语言模型

条件提示学习

相关VIP内容

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知会员服务

42+阅读 · 2022年3月12日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知会员服务

10+阅读 · 2022年3月6日

【CVPR2022】弱监督目标定位建模为领域适应

【CVPR2022】弱监督目标定位建模为领域适应

专知会员服务

17+阅读 · 2022年3月4日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】自监督几何感知

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVPR 2022 Oral | 全新视觉Transformer主干！NUS&字节跳动提出Shunted Transformer

CVer

0+阅读 · 2022年4月6日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

SimVLM：弱监督简单视觉语言模型预训练

SimVLM：弱监督简单视觉语言模型预训练

TensorFlow

0+阅读 · 2021年12月9日

相关基金

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

恶性肿瘤生物适形调强放疗PET/CT/MRI靶区智能勾画

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

新型超硬材料氮化铼的第一性原理设计

国家自然科学基金

0+阅读 · 2011年12月31日

跨姿态人脸识别研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

Cross-stitched Multi-modal Encoders

Arxiv

0+阅读 · 2022年4月20日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Beyond Accuracy: Behavioral Testing of NLP models with CheckList

Arxiv

11+阅读 · 2020年5月8日

微信扫码咨询专知VIP会员