【CVPR2021】基于端到端预训练的视觉-语言表征学习

2021 年 4 月 9 日 专知


本文研究了卷积神经网络(CNN)和视觉语言预训练Transformer(VLPT)的联合学习,旨在从数百万个图像-文本对中学习跨模态对齐。


当前大多数文章都是先抽取出图像中的显著性区域,再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分,现有的视觉语言模型很难完全理解成对自然语言的语义。


本文提出SOHO“开箱即看”的概念,将完整的图像为输入,以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注,这使得推理速度比基于区域的方法快10倍。特别地,SOHO学会了通过视觉词典(VD)来提取全面而紧凑的图像特征,这有助于跨模态理解。大量的实验结果也验证了本文SOHO的有效性。


原文下载链接:

https://www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“VLPT” 就可以获取【CVPR2021】基于端到端预训练的视觉-语言表征学习》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询

点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
20+阅读 · 2021年5月1日
专知会员服务
16+阅读 · 2021年4月27日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
专知会员服务
26+阅读 · 2021年3月5日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【CVPR2021】细粒度多标签分类
专知
44+阅读 · 2021年3月8日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
基于深度学习的多标签生成研究进展
专知
4+阅读 · 2020年4月25日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
13+阅读 · 2021年3月29日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2019年8月19日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
3+阅读 · 2017年12月23日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
20+阅读 · 2021年5月1日
专知会员服务
16+阅读 · 2021年4月27日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
专知会员服务
26+阅读 · 2021年3月5日
【AAAI2021】基于双任务一致性的半监督医学图像分割
专知会员服务
30+阅读 · 2021年2月7日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
相关论文
Arxiv
19+阅读 · 2021年4月8日
Arxiv
13+阅读 · 2021年3月29日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2019年8月19日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
3+阅读 · 2017年12月23日
Top
微信扫码咨询专知VIP会员