文本+视觉，多篇 Visual/Video BERT 论文介绍

2019 年 8 月 30 日 AI科技评论

继 2018 年谷歌的 BERT 模型获得巨大成功之后，在纯文本之外的任务上也有越来越多的研究人员借鉴了 BERT 的思维，开发出各种视觉/视频（Visual/Video）融合的 BERT 模型。这里我们介绍最初的 VideoBERT 论文以及近期的 6 篇其它 V-BERT 论文（按时间先后顺序排序）。

VideoBERT

VideoBERT: A Joint Model for Video and Language Representation Learning

VideoBERT：一个视频和语言表征的联合学习模型

论文地址：https://arxiv.org/abs/1904.01766

论文摘要：为了利用 YouTube 之类的公众媒体平台上的大规模无标签数据，自监督学习如今变得越来越重要。目前的大多数方法都是学习一些低阶表征，而这篇论文中作者们提出了一个视觉和语意的联合模型，在没有额外显式监督的条件下学习高阶特征。具体来说，作者们借鉴了语言建模中十分成功的 BERT 模型，在它的基础上进行改进，从视频数据的向量量化和现有的语音识别输出结果上分别导出视觉 token 和语言学 token，然后在这些 token 的序列上学习双向联合分布。作者们在多项任务中测试了这个模型，包括动作分类和视频描述。作者们表明了这个模型可以直接用于开放词汇库的分类任务，也确认了大规模训练数据以及跨模态信息都对模型的表现有重大影响。除此之外，这个模型的表现超过了最优秀的视频描述模型，作者们也通过量化结果验证了这个模型确实学习到了高阶语义特征。

ViLBERT

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT：为视觉-语言任务训练非任务专用的视觉语言表征

论文地址：https://arxiv.org/abs/1908.02265

论文摘要：这篇论文中作者们提出了 ViLBERT（视觉和语言 BERT），一个学习任务无关的图像内容与自然语言联合表征的模型。作者们把热门的 BERT 架构拓展为一个支持两个流输入的多模态模型，它在这两个流中分别预处理视觉和文本输入，并在联合注意力 transformer 层中进行交互。作者们先在大规模自动采集数据集 Conceptual Captions 上通过两个代理任务预训练模型，然后把它迁移到多个现有的视觉-语言任务上，包括视觉问答、视觉常识推理、代指词、基于说明的图像检索，过程中也只对基础架构做很小的调整。相比于目前的任务专用模型，作者们的做法带来了巨大的表现提升，在所有 4 个任务上都得到了最好的成绩。作者们的成果也代表了学习视觉和语言之间联系的一种新思路，不再局限于某个具体任务训练过程中的学习，而是把视觉-语言联系作为一个可预训练、可转移的模型能力。

VisualBERT

VisualBERT: A Simple and Performant Baseline for Vision and Language

VisualBERT：一个简单有效的视觉和语言基准线模型

论文地址：https://arxiv.org/abs/1908.03557

论文摘要：这篇论文里作者们提出了 VisualBERT，这是一个可以对一系列不同的视觉-语言任务进行建模的框架，而且简单灵活。VisualBERT 包含了一组层叠的 Transformer 层，借助自我注意力把输入一段文本中的元素和一张相关的输入图像中的区域隐式地对齐起来。除此之外，作者们还提出了两个在图像描述数据上的视觉-语言关联学习目标，用于 VisualBERT 的预训练。作者们在 VQA、VCR、NLVR2 以及 Flickr30K 这四个视觉-语言任务上进行了实验，结果表明 VisualBERT 以明显更简单的架构在所有任务中都达到了做好的表现或者和竞争者相当的表现。作者们的进一步分析表明 VisualBERT 可以在没有任何显式监督的情况下建立语言元素和图像中区域之间的联系，而且也对句法关系和追踪（根据描述建立动词和图像区域之间的关系）有一定的敏感性。

B2T2

Fusion of Detected Objects in Text for Visual Question Answering

视觉问答中的检测到物体的文本融合

论文地址：https://arxiv.org/abs/1908.05054

论文摘要：论文作者们开发了一种简单但强有力的神经网络，它可以合并处理视觉和自然语言数据，作为多模态模型的持续改进。模型的名字是 B2T2（Bounding Boxes in Text Transformer，文本 Transformer 中的边界框），它也在同一个统一架构中利用了把单词指向图像中的一部分的参考信息。B2T2 在视觉常识推理（http://visualcommonsense.com/）数据集上有优秀的表现，相比此前公开的基准模型降低了 25% 错误率，也是公共排行榜上目前表现最好的模型。作者们进行了详细的对照试验，表明在早期就把视觉特征和文本分析相结合是这个新架构发挥出好效果的重要原因。

Unicoder-VL

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

Unicoder-VL：一个通过跨模态预训练生成的语言和视觉通用编码器

论文地址：https://arxiv.org/abs/1908.06066

论文摘要：作者们提出了 Unicoder-VL，这是一个以预训练的方式学习视觉和语言的联合表征的通用编码器。这个模型借鉴了 XLM 和 Unicoder 等跨语言、预训练模型的设计思路，视觉和语言内容都会被传入一个多层 transformer 中，作为跨模态预训练阶段；预训练阶段使用三个任务，包括掩蔽语言建模、掩蔽对象标签预测以及视觉-语言匹配。前两个任务会让模型学习从基于语言和视觉内容输入的联合 token 学习到内容相关的表征；后一个任务尝试预测一张图像和一段文本描述之间是否相符。在大量的图像-描述对上预训练之后，作者们把 Unicoder-VL 迁移到了图像-文本检索任务上，只添加了一个额外的输出层，就在 MSCOCO 和 Flicker30K 两个数据集上都取得了目前最佳的表现。

LXMERT

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT：从 Transformers 中学习跨模态编码器表征

论文地址：https://arxiv.org/abs/1908.07490

论文摘要：视觉-语言推理需要对视觉概念、语言语义有一定的理解，尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系。在 LXMERT 中，作者们构建了一个大规模 Transformer 模型，它含有三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器。接着，为了让模型具备联系视觉和语言语义的能力，作者们用大量的图像和句子对进行了模型预训练，使用了 5 个不同的、有代表性的预训练任务：掩蔽语言建模、掩蔽对象预测（特征回归和标签检测）、跨模态对齐以及图像问答。这些任务既可以帮助学习同一个模态内的联系，也可以帮助学习跨模态的联系。在预训练的参数基础上进行精细调节之后，模型在 VQG 和 GQA 两个视觉问答数据集上都取得了最好成绩。作者们还把这个预训练跨模态模型适配到了一个有挑战的视觉推理任务 NLVR2 上，把最好成绩从此前的 54% 正确率一举提升到了 76%，表明了模型有良好的泛化性。最后，作者们通过对照试验证明了他们新设计的模型部件和预训练策略都对结果有很大的帮助。代码和预训练模型可以参见 https://github.com/airsplay/lxmert

VL-BERT

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

VL-BERT：通用视觉-语言表征预训练

论文地址：https://arxiv.org/abs/1908.08530

论文摘要：作者们设计了一种新的用于视觉-语言任务的可预训练的通用表征，名为 VL-BERT。VL-BERT 把简单有效的 Transformer 模型作为主干并进行拓展，视觉和语言嵌入特征可以同时作为输入。输入中的每个元素可以是来自句子的一个单词，也可以是输入图像中的一个感兴趣区域。模型的设计也为了能够和所有视觉-语言的下游任务兼容。作者们在大规模的 Conceptual Captions 上对模型进行预训练，三个预训练任务为：带有视觉线索的掩蔽文字建模、带有语言线索的感兴趣区域分类、句子-图像关系预测。作者们通过大量的实证分析表明预训练阶段可以更好地对齐视觉-语言线索，并为视觉问答、视觉常识推理、代指词汇理解等下游任务带来收益。值得一提的是 VL-BERT 在 VCR 排行榜上取得了单一模型的最好成绩。

全部 7 篇论文打包下载地址：点击 阅读原文 即可跳转

登录查看更多