ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

2022 年 8 月 7 日 PaperWeekly

字节跳动人工智能实验室的研究者提出了 VLUE（Vision-Language Understanding Evaluation Benchmark）——首个用于评测预训练视觉语言模型真正的泛化能力的基准评测平台。实验结果发现，目前多模态预训练的测评存在预训练数据和下游任务测评数据领域高度重合的问题，因此，普遍高估了视觉语言预训练模型真正的泛化和迁移能力。相关工作已经被 ICML 2022 接收。

▲ VLUE Leaderboard

论文链接：

https://arxiv.org/abs/2205.15237

项目链接：

https://vlue-benchmark.github.io/VLUE-website/leaderboard.html

数据集/代码链接：

https://github.com/MichaelZhouwang/VLUE

背景介绍

近年来，以视觉语言预训练（Vision-Language Pre-training）为代表的多模态预训练模型大幅提高了许多视觉语言任务的性能，在一些任务上（如 VQA）甚至达到了媲美一般人类表现的结果，但是具有代表性且常见的视觉语言任务数据集中的图片都和视觉语言模型预训练常用的数据存在严重的重合。

具体来说，图片文字抽取（image-text retrieval），视觉问答（visual question answering），视觉定位（visual grounding）这些视觉语言任务的常用数据集都是基于 MSCOCO 数据集中的图片进行标注的。而几乎所有的视觉语言模型在预训练中都会用到 MSCOCO 中的文本图片进行预训练。

因此，视觉语言模型在迁移到这些数据集之前，就已经在预训练过程中记忆了这些数据集，甚至是测试集中的图片和对应的文字描述，预训练视觉语言模型当前在这些常见数据集中所展示出的优秀效果很可能因为这种 in-distribution bias 的影响而被高估了的。

为了更好地评估预训练视觉语言模型真正的泛化/迁移能力，来自字节跳动人工智能实验室（AI Lab）的研究者提出了 VLUE（Vision-Language Understanding Evaluation Benchmark），首个视觉语言模型评测的基准平台。VLUE 中收集包含四个代表性视觉语言任务：图片文字抽取（image-text retrieval），视觉问答（visual question answering），视觉语言推理（natural language visual reasoning），以及视觉定位（visual grounding）的 Out of Distributio（OOD）测试集。

和这些任务中现有的数据集不同的是，VLUE 中这些测试集中包含了来自和常见视觉语言预训练数据分布不同的、更多样、更具有代表性的视觉概念和图片。这使得评估预训练视觉语言模型真正的泛化/迁移能力成为了可能。

另外，研究者们也指出了目前视觉语言预训练领域中模型评估过程中另一个普遍存在的问题：目前的工作在评估和对比的时候往往只关注绝对性能的比较。但是实际应用中，模型的效率和效果之间的平衡也是比较模型时很重要的一个因素。另外只汇报和比较绝对性能也限制了领域中训练更高效环保的视觉语言模型这一重要方向的发展。因此，在视觉语言模型评测的基准平台中引入效率-性能权衡（efficiency-performance trade-off）的综合指标来辅助视觉语言模型的评测也是非常有必要的。

VLUE 团队重新评估了 7 个具有代表性的预训练视觉语言模型在收集到的 OOD 测试集中的泛化表现以及效率-性能权衡的结果，证实了现有的数据集图片分布所带来的对视觉语言模型真实效果的高估以及因此带来的模型比较中的误差，并且揭示了不同模型结构在效率-性能权衡中所存在的显著差异。

VLUE基准评测平台

VLUE 是首个视觉语言模型评测的基准平台，包含了图片文字抽取（image-text retrieval），视觉问答（visual question answering），视觉语言推理（natural language visual reasoning），以及视觉定位（visual grounding）这四个代表性的视觉语言任务。这四类任务也是目前绝大多数预训练视觉语言模型工作所采用的下游数据集。

为了排除 in-distribution bias，评估预训练视觉语言模型真正的泛化/迁移能力，我们首先需要收集来自和视觉语言预训练阶段所使用的图片来源和分布不同的图片用于后续数据集的标注。另外，我们也希望选取的图片尽量包含更多有代表性的视觉概念并足够多样。常见的网络图片来源很难确保没有被包含进视觉语言预训练过程中，此外，收集足量合适的图片也比较困难。幸运的是，我们发现来自 EMNLP 2021 的 MaRVL 数据集（Visually Grounded Reasoning across Languages and Cultures）中刚好包含了我们所需要的图片集。

MaRVL 是一个多语言版本的视觉语言推理数据集，在图片选取的过程中特别注重和强调了从不同的文化和地区选择了多样的视觉概念并人工进行了图片的收集和筛选工作。

如下图所示，MSCOCO 数据集中绝大多数的视觉概念都来自于西方文化，其他从互联网上爬取的视觉语言预训练的数据（如 CC3M/12M 等）也是如此。相反地，MaRVL 数据集中则包含了来自不同地区和文化的图片，因此图片的分布和视觉语言预训练数据不同，且更具有普适性。这和本文的出发点恰好不谋而合，因此 VLUE 平台中采用了 MaRVL 数据集作为图片来源。

▲ MaRVL图片和MSCOCO图片的对比

有了图片来源之后，VLUE 团队的研究者们利用字节众包平台，首先进行了数据的筛选和过滤，然后依据这四个视觉语言任务的标注方法，对 MaRVL 的图片进行标注，以此作为 OOD test set。标注完成后的数据集信息，以及原始数据集的信息如下图所示：

▲ VLUE数据集统计信息

我们可以看到我们所标注的数据规模相比原始数据集的规模还是较小，因此我们在 VLUE 中将这些标注的数据集作为和原始数据集图片分布不同的一个 OOD test set，研究者们可以将视觉-语言预训练模型在对应任务原始的数据集中训练完成的模型直接迁移到 VLUE 的 OOD test set 中进行评测。

实验结果

在实验中，我们选取了 7 个有代表性的视觉语言模型在 VLUE 基准平台进行测试，各个模型在原始测试集和在新标注的 OOD test set 中的表现如下图所示。我们可以看到，所有被测试的模型在 OOD test set 上的表现都有明显的下降，这印证了作者们关于预训练数据和下游任务数据分布重合会带来对预训练视觉语言模型效果的高估的猜测。

另外我们也发现在 OOD test set 上进行模型比较也会带来和在之前的 in domain 原始数据集不同的结论，比如 VL-T5 在 NLVR 任务中原始数据集的表现相比 ViLBERT 和 LXMERT 都有一定差距，但是在 OOD test set 中的效果则较大幅度地超过了这两个模型，甚至达到了会和 ALBEF，X-VLM 等模型相当的效果。因此我们相信，在 VLUE benchmark 中的 OOD test set 对模型进行测试，对于评价预训练视觉语言模型真正的迁移和泛化能力是非常有必要的。

▲ VLUE实验结果

此外，本文还对常见视觉语言模型的效果-效率权衡进行了评测，结果如下图所示。我们可以清楚地看到，利用 Vision Transformer 的多模态模型在效果上略好的同时在效率方面明显胜过基于目标检测的多模态模型。这对研究者比较/选择多模态模型提供了新的角度，也为后续多模态预训练模型的研究方向提供了一定的指导。