【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL - 专知VIP

会员服务 ·

4

AAAI 2021 · 预训练模型 · 视觉-语言预训练模型 ·

2021 年 1 月 29 日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大规模无监督预训练技术在文本领域的各个任务上取得了显著的效果提升，视觉-语言预训练(Vision-language Pre-training)也受到了越来越多的关注。视觉-语言预训练的目标是通过对齐语料学习多模态的通用联合表示，将各个模态之间的语义对齐信号融合到联合表示中，从而提升下游任务效果。已有的视觉语言预训练方法在预训练过程中没有区分普通词和语义词，学到的联合表示无法刻画模态间细粒度语义的对齐，如场景中物体(objects)、物体属性(attributes)、物体间关系(relationships)这些深度理解场景所必备的细粒度语义。

我们提出了知识增强的视觉-语言预训练技术ERNIE-ViL，将包含细粒度语义信息的场景图先验知识融入预训练过程，创建了物体预测、属性预测、关系预测三个预训练任务，在预训练过程中更加关注细粒度语义的跨模态对齐，从而学习到能够刻画更好跨模态语义对齐信息的联合表示。作为业界首个融入场景图知识的视觉语言预训练模型，ERNIE-ViL在视觉问答、视觉常识推理、引用表达式理解、跨模态文本检索、跨模态图像检索5个多模态典型任务上取得了SOTA效果，同时，在视觉常识推理VCR榜单上取得第一。

https://www.zhuanzhi.ai/paper/3e78bfda818b0c967f692861d4b05386

成为VIP会员查看完整内容

26

相关内容

AAAI 2021

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

AI科技评论

4+阅读 · 2019年3月17日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

1+阅读 · 2021年3月19日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Compact Trilinear Interaction for Visual Question Answering

Arxiv

6+阅读 · 2019年9月26日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Arxiv

7+阅读 · 2019年6月14日

ERNIE: Enhanced Language Representation with Informative Entities

Arxiv

5+阅读 · 2019年5月17日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

VIP会员

相关主题

预训练模型

视觉-语言预训练模型

相关VIP内容

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

【WWW2021】在语义文本匹配任务中利用先验知识引导BERT注意力

专知会员服务

42+阅读 · 2021年2月24日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

AAAI2021 | 学习预训练图神经网络

AAAI2021 | 学习预训练图神经网络

专知会员服务

116+阅读 · 2021年1月28日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

美军“泰坦（TITAN）地面站目标系统”：是颠覆还是一场可预见的军事进步？

美空军指挥参谋学院 · 联合空中作战规划课程介绍（2025年） | 22页

一种基于视觉算法生成三维场景重建的多任务系统 | 2025最新200页

北约第十七届（2025年）网络冲突国际会议论文集 | 272页

相关资讯

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

AI科技评论

4+阅读 · 2019年3月17日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

通过预训练提升语言理解

通过预训练提升语言理解

开放知识图谱

4+阅读 · 2018年11月21日

相关论文

ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph

Arxiv

1+阅读 · 2021年3月19日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Compact Trilinear Interaction for Visual Question Answering

Arxiv

6+阅读 · 2019年9月26日

Inverse Visual Question Answering with Multi-Level Attentions

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

4+阅读 · 2019年9月17日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Improving Visual Question Answering by Referring to Generated Paragraph Captions

Arxiv

7+阅读 · 2019年6月14日

ERNIE: Enhanced Language Representation with Informative Entities

Arxiv

5+阅读 · 2019年5月17日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

Natural Language Guided Visual Relationship Detection

Arxiv

3+阅读 · 2017年11月21日

VQA: Visual Question Answering

Arxiv

9+阅读 · 2016年10月27日

微信扫码咨询专知VIP会员