成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
AAAI 2021论文分享 | 基于知识增强,百度新型视觉-语言预训练模型ERNIE-ViL取得多项任务SOTA
2021 年 1 月 26 日
机器之心
随着大规模无监督预训练技术在NLP的各个任务上取得了显著的效果提升,越来越多的研究者注意到了预训练对于诸如视觉问答和视觉常识推理等视觉-语言任务(Vision-Language Tasks)的重要性。
现有的视觉-语言预训练(Vision-Language Pre-training)方法通过大规模图像-文本数据集上的视觉定位(Visual grounding)任务来学习联合表示,例如基于随机掩码的掩码语言建模(Masked LM)以及在整个图像 / 文本层级的图像 - 文本匹配。但是,仅基于随机掩码并预测文本中的词,现有方法在预训练过程中无法区分普通词和描述细粒度语义的词,从而忽略了构建跨模态的细粒度语义对齐的重要性。如物体(人和船)、物体属性(船是白的)以及物体之间的关系(人站在船上)等这些细粒度的语义对于精准理解一些真实视觉场景是至关重要的。因此,更好的视觉-语言联合表示应能够刻画这些细粒度语义的跨模态对齐。
在百度这篇被 AAAI 2021 接收的论文《ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph》中,研究者们提出了一种基于知识增强的视觉-语言预训练技术,基于场景图知识构建了场景图预测任务,从而学习到刻画细粒度语义对齐的联合表示,在视觉问答、视觉常识推理等五个多模态典型任务上取得了 SOTA 效果,并取得视觉常识推理 VCR 榜单的第一名。
机器之心最新一期 AAAI 线上分享邀请到了论文共同一作、百度自然语言处理部高级研发工程师唐尼,为大家详细解读此前沿研究。
分享主题:
知识增强的视觉-语言预训练技术 ERNIE-ViL
个人简介:
唐尼,百度自然语言处理部高级研发工程师,主要从事多模态语义理解相关研发工作。
分享论文链接:
https://arxiv.org/abs/2006.16934
分享概要:
随着大规模无监督预训练技术在文本领域的各个任务上取得了显著的效果提升,视觉-语言预训练(Vision-language Pre-training)也受到了越来越多的关注。视觉-语言预训练的目标是通过对齐语料学习多模态的通用联合表示,将各个模态之间的语义对齐信号融合到联合表示中,从而提升下游任务效果。已有的视觉语言预训练方法在预训练过程中没有区分普通词和语义词,学到的联合表示无法刻画模态间细粒度语义的对齐,如场景中物体(objects)、物体属性(attributes)、物体间关系(relationships)这些深度理解场景所必备的细粒度语义。
我们提出了知识增强的视觉-语言预训练技术 ERNIE-ViL,将包含细粒度语义信息的场景图先验知识融入预训练过程,创建了物体预测、属性预测、关系预测三个预训练任务,在预训练过程中更加关注细粒度语义的跨模态对齐,从而学习到能够刻画更好跨模态语义对齐信息的联合表示。作为业界首个融入场景图知识的视觉语言预训练模型,ERNIE-ViL 在视觉问答、视觉常识推理、引用表达式理解、跨模态文本检索、跨模态图像检索等 5 个多模态典型任务上取得了 SOTA 效果,同时,在视觉常识推理 VCR 榜单上取得第一。
直播时间:
北京时间 1 月 28 日 20:00-21:00
加入机动组,一起看直播
「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「AAAI」,加入本次直播群。
如小助手添加异常,还可以添加 syncedai4 与 syncedai6,或将微信 ID 发送至邮箱 shidongle@jiqizhixin.com,我们将邀请你入群。
欢迎投稿
欢迎更多 AAAI 2021 接收论文作者向我们投稿,文章解读、视频讲解或参与「机动组」直播等形式均可,与机器之心读者分享你的最新研究工作。
联系邮箱:shidongle@jiqizhixin.com
联系微信:lele896556
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
知识增强
关注
9
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型
专知会员服务
34+阅读 · 2021年4月8日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》
专知会员服务
42+阅读 · 2020年12月4日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
44+阅读 · 2020年11月15日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您,附论文代码
专知会员服务
84+阅读 · 2020年2月27日
AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型
专知会员服务
52+阅读 · 2020年2月26日
微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型
专知会员服务
107+阅读 · 2020年2月19日
【MLA 2019】自然语言处理中的表示学习进展:从Transfomer到BERT,复旦大学邱锡鹏
专知会员服务
98+阅读 · 2019年11月15日
论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答
开放知识图谱
14+阅读 · 2020年9月24日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT(附论文解读)
数据派THU
14+阅读 · 2019年6月15日
ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT
PaperWeekly
8+阅读 · 2019年6月3日
赛尔原创 | IJCAI 2019 New SOTA: 基于可迁移的BERT模型进行故事结尾预测
哈工大SCIR
7+阅读 · 2019年5月20日
动态 | 百度发布NLP模型ERNIE,基于知识增强,在多个中文NLP任务中表现超越BERT
AI科技评论
4+阅读 · 2019年3月17日
百度提出ERNIE,多项中文NLP任务表现出色(已开源)
AI100
33+阅读 · 2019年3月16日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
【干货】基于属性学习和额外知识库的图像描述生成和视觉问答
专知
18+阅读 · 2017年12月25日
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
Arxiv
11+阅读 · 2020年7月31日
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
Arxiv
19+阅读 · 2020年2月15日
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding
Arxiv
4+阅读 · 2020年1月11日
BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction
Arxiv
6+阅读 · 2019年9月26日
Fine-tune BERT for Extractive Summarization
Arxiv
3+阅读 · 2019年9月5日
Relation-aware Graph Attention Network for Visual Question Answering
Arxiv
4+阅读 · 2019年3月29日
IQA: Visual Question Answering in Interactive Environments
Arxiv
5+阅读 · 2018年4月5日
Visual Question Reasoning on General Dependency Tree
Arxiv
6+阅读 · 2018年3月31日
DVQA: Understanding Data Visualizations via Question Answering
Arxiv
4+阅读 · 2018年3月29日
A Read-Write Memory Network for Movie Story Understanding
Arxiv
5+阅读 · 2018年3月16日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
知识增强
预训练
视觉-语言预训练模型
预训练技术
AAAI 2021
视觉常识推理
相关VIP内容
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型
专知会员服务
34+阅读 · 2021年4月8日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
中科院计算所刘昊淼博士论文《面向物体语义理解的视觉表示学习》
专知会员服务
42+阅读 · 2020年12月4日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
44+阅读 · 2020年11月15日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
如何构建多模态BERT? 这份UNC76页《LXMERT: 从Transformer学习跨模态编码表示》PPT告诉您,附论文代码
专知会员服务
84+阅读 · 2020年2月27日
AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型
专知会员服务
52+阅读 · 2020年2月26日
微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型
专知会员服务
107+阅读 · 2020年2月19日
【MLA 2019】自然语言处理中的表示学习进展:从Transfomer到BERT,复旦大学邱锡鹏
专知会员服务
98+阅读 · 2019年11月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答
开放知识图谱
14+阅读 · 2020年9月24日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT(附论文解读)
数据派THU
14+阅读 · 2019年6月15日
ACL 2019 | 基于知识增强的语言表示模型,多项NLP任务表现超越BERT
PaperWeekly
8+阅读 · 2019年6月3日
赛尔原创 | IJCAI 2019 New SOTA: 基于可迁移的BERT模型进行故事结尾预测
哈工大SCIR
7+阅读 · 2019年5月20日
动态 | 百度发布NLP模型ERNIE,基于知识增强,在多个中文NLP任务中表现超越BERT
AI科技评论
4+阅读 · 2019年3月17日
百度提出ERNIE,多项中文NLP任务表现出色(已开源)
AI100
33+阅读 · 2019年3月16日
谷歌最强 NLP 模型 BERT 解读
雷锋网
7+阅读 · 2018年10月23日
【干货】基于属性学习和额外知识库的图像描述生成和视觉问答
专知
18+阅读 · 2017年12月25日
相关论文
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
Arxiv
11+阅读 · 2020年7月31日
UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation
Arxiv
19+阅读 · 2020年2月15日
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding
Arxiv
4+阅读 · 2020年1月11日
BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction
Arxiv
6+阅读 · 2019年9月26日
Fine-tune BERT for Extractive Summarization
Arxiv
3+阅读 · 2019年9月5日
Relation-aware Graph Attention Network for Visual Question Answering
Arxiv
4+阅读 · 2019年3月29日
IQA: Visual Question Answering in Interactive Environments
Arxiv
5+阅读 · 2018年4月5日
Visual Question Reasoning on General Dependency Tree
Arxiv
6+阅读 · 2018年3月31日
DVQA: Understanding Data Visualizations via Question Answering
Arxiv
4+阅读 · 2018年3月29日
A Read-Write Memory Network for Movie Story Understanding
Arxiv
5+阅读 · 2018年3月16日
大家都在搜
自主可控
洛克菲勒
大型语言模型
CMU博士论文
态势感知
无人艇
palantir
软件工程
数据质量
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top