【CVPR2021】基于端到端预训练的视觉-语言表征学习 - 专知VIP

会员服务 ·

4

视觉-语言表征学习 · 卷积神经网络 · Transformer ·

2021 年 4 月 9 日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文研究了卷积神经网络（CNN）和视觉语言预训练Transformer（VLPT）的联合学习，旨在从数百万个图像-文本对中学习跨模态对齐。当前大多数文章都是先抽取出图像中的显著性区域，再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分，因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分，现有的视觉语言模型很难完全理解成对自然语言的语义。本文提出SOHO“开箱即看”的概念，将完整的图像为输入，以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注，这使得推理速度比基于区域的方法快10倍。特别地，SOHO学会了通过视觉词典（VD）来提取全面而紧凑的图像特征，这有助于跨模态理解。大量的实验结果也验证了本文SOHO的有效性。

https://www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39

成为VIP会员查看完整内容

38

相关内容

视觉-语言表征学习

视觉-语言表征学习

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

新智元

4+阅读 · 2018年8月8日

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

新智元

8+阅读 · 2018年5月14日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

Learning Dense Representations of Phrases at Scale

Arxiv

0+阅读 · 2021年6月2日

Volta at SemEval-2021 Task 6: Towards Detecting Persuasive Texts and Images using Textual and Multimodal Ensemble

Arxiv

0+阅读 · 2021年6月1日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Arxiv

7+阅读 · 2020年6月11日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

VIP会员

相关主题

视觉-语言表征学习

卷积神经网络

相关VIP内容

【CVPR2021】预训练图像处理Transformer

专知会员服务

45+阅读 · 2021年6月1日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知会员服务

27+阅读 · 2021年3月4日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

热门VIP内容

开通专知VIP会员享更多权益服务

新书册《几何深度学习的数学基础》

中程单向攻击无人机的战略意义：俄乌战争启示

在无标注条件下适配视觉—语言模型：全面综述

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

相关资讯

【CVPR2021】基于反事实推断的视觉问答框架

【CVPR2021】基于反事实推断的视觉问答框架

专知

38+阅读 · 2021年3月4日

【ICML2020】对比多视角表示学习

【ICML2020】对比多视角表示学习

专知

19+阅读 · 2020年6月28日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

DeepMind提出视觉问题回答新模型，CLEVR准确率达98.8％

新智元

4+阅读 · 2018年8月8日

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

IJCAI Oral：弱监督实现精确目标检测，上交大提出协同学习框架

新智元

8+阅读 · 2018年5月14日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

Learning Dense Representations of Phrases at Scale

Arxiv

0+阅读 · 2021年6月2日

Volta at SemEval-2021 Task 6: Towards Detecting Persuasive Texts and Images using Textual and Multimodal Ensemble

Arxiv

0+阅读 · 2021年6月1日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Arxiv

7+阅读 · 2020年6月11日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

Visualizing Attention in Transformer-Based Language Representation Models

Visualizing Attention in Transformer-Based Language Representation Models

Arxiv

3+阅读 · 2019年4月11日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

微信扫码咨询专知VIP会员