字节AI Lab提出的新多语言多模态预训练方法刷榜！已开源

2022 年 8 月 28 日 PaperWeekly

写在前面

当前，多模态预训练工作受限于数据基本只支持英语。而多语言多模态预训练旨在将高资源语言（例如英语）上的多模态能力迁移至低资源语言上。现有的多语言多模态方法虽然提高了低资源语言上的多模态效果，但是，在最近提出的多语言多模态测评榜单 IGLUE 上，这些方法在低资源语言上的效果仍然明显低于“translate-test”的效果，难以用于实际。（“translate-test”即指输入文本翻译到英语，然后使用英语多模态模型测评。）

在这篇文章中，字节跳动 AI Lab Research 团队发现多语言预训练和多模态预训练都是在拉近同一对象的不同表示形式（view），因此提出 Cross-View Language Modeling，通过最大化同一对象的不同表示形式之间的互信息，以统一的方法拉近图像-文本对与平行文本对做多语言多模态预训练 。该方法虽然概念相对简单，但是在多种语言下的多模态任务上远超过之前的最佳模型，包括：基于视觉的自然语言推断任务（VNLI）、图像文本检索（image-text retrieval）、视觉问答（VQA）、视觉推理（NLVR）等。

论文标题：

Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training

论文链接：

https://arxiv.org/abs/2206.00621

代码链接：

https://github.com/zengyan-97/CCLM

研究背景

最近，预训练在多语言和多模态任务上都取得了巨大成功。自然下一步的想法是将多语言多模态预训练统一到一个模型框架，使得在不需要收集更多的低资源语言的图文数据的前提下，迁移高资源语言的多模态能力到低资源语言，从而提升低资源语言的多模态任务效果。

多语言预训练和多模态预训练分别有相对较大的平行数据，而目前只有少量多语言多模态平行数据（例如：一张图片和多种语言的图片描述），并且其语言覆盖范围也有限。现有的工作，如 M3P 和 UC2，均使用英文文本或图像作为 pivot 来对齐多语言多模态特征表示。然而，最新的多语言多模态榜单 IGLUE 的实验结果表明，这些多语言多模态预训练模型仍无法超过“translate-test”：先将低资源语言文本翻译为英语，再用英语多模态模型进行推理。

对比之下，在纯文本任务上，诸如 XLM-R 之类的多语言预训练模型在大多数语言上的表现显著高于 translate-test 基线，这说明目前的多语言多模态模型并没有完全发挥多语言预训练所能达到的跨语言迁移能力。

而这篇文章旨在充分发挥多语言多模式预训练的潜力。作者指出了先前工作的两个主要缺陷。首先，虽然多语言多模态数据难以收集，但多语言平行文本语料可以获得，此外，之前在纯文本上的工作证明了它们对模型的训练很有帮助。而先前工作没有利用这些平行文本语料，比如 M3P 仅在多语言单语上进行 MLM 训练。其次，各种预训练目标会引入更多的特殊结构，分别以英语或图像作为基准也会使用到不同的输入输出结构。在进一步提升性能或使用更大数据集时，合并这些优化方法的过程是复杂且繁琐的。

与之前的方法不同，本文作者认为多语言和多模态预训练的任务目标在本质上是相同的，即将同一对象的两个不同 view 对齐到相同的语义空间。因此，作者提出 cross-view language modeling，将这两种看似不同的任务合并到一个统一的框架。

具体而言，作者把多模态数据（图像文本对）和多语言数据（平行语料对）都视为包含两种 view 的数据对，将两种 view 输入 Transformer 模型分别进行编码，然后用一个在多模态和多语言数据间共享的 fusion transformer 计算它们的 cross-attention 从而将它们合并。

作者使用条件 MLM 和对比学习最大化两种 view 的互信息，从而将它们对齐到共同的特征空间。通过这种方式，cross-view language modeling 统一了以英语或以图像作为 pivot 的方法。实验证明， CCLM 可以有效拉齐视觉和多语言文本的表示，在多种多语言多模态下游任务上取得了 SoTA 的表现。

方法

总的来说，CCLM 由一个图像编码器，一个多语言文本编码器，一个融合模型组成。图像编码器采用视觉 Transformer，将输入图片分成不重叠的 patches 编码，最终得到图片的视觉特征。同样，多语言编码器将文本输入编码为文本特征。最后，融合模型基于 cross-attention 融合图像特征和文本特征。

如图 1 所示，CCLM 以图像文本对或跨语言平行语料作为输入，并将输入的数据对看作同一对象的两个不同的 view，在训练中将它们映射到相同的语义空间进行对齐。这种 cross-view 方法可以统一网络的输入输出格式，以及多语言和多模态的训练目标。在训练中，CCLM 在多语言和多模态训练之间共享融合模型参数，并使用统一的对比学习损失（contrastive loss）、匹配损失（matching loss）和 CMLM 损失（conditioned masked language modeling）来优化网络。

作者还从信息论的角度，介绍了 CCLM 的本质是使用 InfoNCE 损失最大化两个输入变量的互信息 I（A, B）的一个下界：

其中定义 A=a, B=b 是同一个对象的两个不同 view，可以是图像文本对，或者平行语料对；集合中包含了一个正样本和多个负样本。

作者在文中展示了对比学习损失、匹配损失、CMLM 损失都可以看作是 InfoNCE 损失的变体。

1）图像编码器和多语言编码器之间的 对比学习损失 是一种对称的 InfoNCE 损失，它可以表示成：

都是大小为 batch size 的集合，模型要求从 batch 内的负样本中预测匹配的（a, b）对。比如，如果（a,b）是图像文本对，则 f_{\bm{\theta}}(a,b) 是图像编码器和多语言编码器分别输出的 [CLS] 向量之间的点积。

2） 匹配损失 作用于融合模型输出的 [CLS] 向量，，也可以看作 InfoNCE 损失的对称形式：

作者为每个正样本对（a,b）在当前 batch 中取样 1 个负样本，然后将正负样本对的特征都输入融合模型，预测样本对是否匹配。在这种情况下可以认为：

其中，是参数化向量。

3） CMLM损失 也可以认为是最大化上下文信息，，和被 mask 的 token，，之间的互信息，其中是部分 mask 了的文本，b 是配对的图像或者另一个语言的文本，如下所示：

在这种情况下，

其中，是融合模型在位置的输出向量，将一个 token 映射到一个参数化向量，是词表大小。

实验

作者使用 UC2 发布的多语言 CC3M 图文数据集，该数据集包含三百万张图片，每张图配有一句英文描述，以及使用机器翻译得到的另外 5 种语言的描述（德语，法语，捷克语，日语和中文）。除此之外，作者对 COCO、VG 数据集（英语图文数据集），共一百万图文对也进行翻译得到另外 5 种语言的描述。综上所述，作者分别在多语言 CC3M 数据集和多语言 CC3M+COCO+VG，4M 数据集上进行实验，训练获得的模型分别标记为和。

此外，该方法还使用了平行文本语料。作者使用的是 WikiMatrix 数据集的子集，这个子集包含了多语言多模态 Benchmark，IGLUE, 中使用到的 20 种语言，共 19M 平行语料，具体如下：

基于此，作者对所提出的方法进行了详细测评。

1）首先，作者在多语言多模态 Benchmark——IGLUE 的各个任务上进行了测评：

其中，XVNLI 是多语言自然语言推断任务，xGQA 是多语言视觉问答任务，MaRVL 是多语言视觉推理任务，xFlickr&CO 和 WIT 是多语言图文检索任务。可以看出，CCLM 明显超过了之前的多语言多模态预训练模型，此外，CCLM 也是首次超过 Translate-Test 的多语言多模态模型。

2）作者也在广泛使用的 Flickr30K 和多语言图文检索数据集上进行了测评：

可以看出，在三种不同的设定下，在使用同样多模态数据集的情况下显著超过了之前的工作，并且获得了进一步提升。

3）作者进一步可视化了模型的语言迁移能力：

该雷达图展示的是相对数值：非英语上的表现对比英语上的表现（%）。可以看出，在各个任务（a）、各个语言（b）上都能更好地迁移英语多模态能力。

4）作者还提供了 CCLM 的消融实验：

作者设计了五种不同的设置来进行消融实验，所有的预训练模型均使用相同的多语言 CC3M 数据。从表格中可以看出，引入平行语料（对比 w/o parallel sentence pairs）带来了最多的表现收益。

除此之外，消融实验也探究了对平行语料使用不同的损失，对比了多语言预训练中常用的 w/ TLM 与 w/ TLM + CL，可以看出，CCLM 这种与多模态目标函数统一的做法更好，在MaRVL (+2~5) 和 xGQA (+5) 上有明显的提升。

此外，消融实验也探究了在不同程度上独立多语言和多模态预训练的模型参数，对比 w/o shared cross-attn 和 w/o shared FFN ，可以看出，CCLM 这种共享全部参数的做法更适合多语言多模态预训练，能更好地迁移英语多模态能力。

5）作者还测评了 CCLM 在英语多模态任务上的表现：

上表对比了英语多模态 SoTA 模型（base size）的表现，可以看出 CCLM 在英语任务上的表现并没有因为引入多语言而明显变差。

总结

在本文中，作者提出了 CCLM，将图像和多种语言视为同一对象的不同 view，统一地将它们作为模型的输入进行多语言多模态预训练。作者通过 ablation study 验证了这种统一的方式的有效性。实验结果显示 CCLM 在广泛的多语言多模态下游任务（其中包括：视觉推理、图像文本检索、视觉问答任务）上取得了最先进的表现。