【CVPR2021】基于端到端预训练的视觉-语言表征学习

2021 年 4 月 9 日 专知

本文研究了卷积神经网络（CNN）和视觉语言预训练Transformer（VLPT）的联合学习，旨在从数百万个图像-文本对中学习跨模态对齐。

当前大多数文章都是先抽取出图像中的显著性区域，再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分，因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分，现有的视觉语言模型很难完全理解成对自然语言的语义。

本文提出SOHO“开箱即看”的概念，将完整的图像为输入，以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注，这使得推理速度比基于区域的方法快10倍。特别地，SOHO学会了通过视觉词典（VD）来提取全面而紧凑的图像特征，这有助于跨模态理解。大量的实验结果也验证了本文SOHO的有效性。

原文下载链接：

https://www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VLPT” 就可以获取《【CVPR2021】基于端到端预训练的视觉-语言表征学习》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

视觉-语言表征学习

关注 1

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

（CVPR2021）基于结构保持的弱监督目标定位

专知会员服务

21+阅读 · 2021年5月1日

【CVPR2021】针对场景图生成语义模糊性的概率性建模

专知会员服务

17+阅读 · 2021年4月27日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】动态度量学习

专知会员服务

40+阅读 · 2021年3月30日

【CVPR2021】自监督几何感知

专知会员服务

46+阅读 · 2021年3月6日

【CVPR2021】面向开放世界的目标检测

专知会员服务

27+阅读 · 2021年3月5日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

31+阅读 · 2021年2月7日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

【CVPR2021】细粒度多标签分类

专知

44+阅读 · 2021年3月8日

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知

18+阅读 · 2020年10月11日

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

基于深度学习的多标签生成研究进展

专知

4+阅读 · 2020年4月25日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Adaptive Methods for Real-World Domain Generalization

Arxiv

13+阅读 · 2021年3月29日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Query Understanding via Intent Description Generation

Arxiv

9+阅读 · 2020年8月25日

A Meta-Learning Framework for Generalized Zero-Shot Learning

Arxiv

3+阅读 · 2019年9月10日

CEDR: Contextualized Embeddings for Document Ranking

Arxiv

4+阅读 · 2019年8月19日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Progressive Pose Attention Transfer for Person Image Generation

Arxiv

5+阅读 · 2019年4月9日

Few-shot Adaptive Faster R-CNN

Arxiv

3+阅读 · 2019年3月22日

Interpretable Counting for Visual Question Answering

Arxiv

3+阅读 · 2017年12月23日

VIP会员