【导读】BERT自问世以来,几乎刷新了各种NLP的任务榜,基于BERT的变种也层出不穷。19年来,很多研究人员都尝试融合视觉音频等模态信息进行构建预训练语言模型。本文介绍了EMNLP2019来自UNC-北卡罗来纳大学教堂山分校的Hao Tan的工作。构建LXMERT(从Transformers中学习跨模态编码器表示)框架来学习这些视觉和语言的语义联系。作者这份76页PPT详细介绍了语言和视觉任务的概况以及如何构建多模态BERT。

视觉和语言推理需要理解视觉概念、语言语义,最重要的是理解这两种模式之间的对齐和关系。因此,我们提出了LXMERT(从Transformers中学习跨模态编码器表示)框架来学习这些视觉和语言联系。在LXMERT中,我们构建了一个大型Transformers模型,它由三个编码器组成:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来, 赋予我们的模型的功能连接视觉和语言的语义,我们在大量image-and-sentence 预训练模型, 通过五个不同代表训练的任务: mask语言建模,mask对象预测(功能回归和标签分类), 跨模式匹配和图像问答。这些任务有助于学习模态内和模态间的关系。从我们预先训练的参数进行微调后,我们的模型在两个可视化的问题回答数据集(即, VQA和GQA)。我们还通过将预训练的跨模态模型应用于具有挑战性的视觉推理任务NLVR2,并将之前的最佳结果提高了22%(54%至76%),从而展示了该模型的通用性。最后,我们展示了详细的ablation study,以证明我们的新模型组件和预训练策略对我们的结果有显著的贡献;并针对不同的编码器提出了几种注意可视化方法。代码和预训练的模型可在: https://github.com/airsplay/lxmert

https://arxiv.org/abs/1908.07490
https://github.com/airsplay/lxmert

LXMERT同样是两路输入,在视觉侧关注单图,和上文很多方案类似,图像经过目标检测模型得到区域块的特征序列,并经过Transformer进一步编码;文本侧通过BERT结构得到文本的特征序列,最后两者做交叉的Transformer做Attention,进行多任务的预训练。不同于其他工作,LXMERT的预训练任务可以说是巨多,包括masked图像特征的预测、图像label的预测(猫、狗等)、VQA、图文是否匹配以及masked语言模型。
便捷下载,请关注专知公众号(点击上方蓝色专知关注)

















































专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!
点击“
阅读原文
”,了解使用
专知
,查看获取5000+AI主题知识资源