论文浅尝 | 预训练单模态和多模态模型中的视觉常识

2022 年 8 月 22 日 开放知识图谱

笔记整理：李磊，浙江大学硕士，研究方向为自然语言处理、多模态学习。

链接：https://arxiv.org/abs/2205.01850

动机

人类的语言理解通常发生于多模态环境中，这一现象引起了NLP领域对引入视觉信息的日益关注。xxx构建了一个人工标注的颜色常识知识数据集（CoDa），发现语言模型受到了报告偏差（reporting bias）的影响，引入多模态信息可以缓和这种影响。本文进一步研究单模态模型和多模态模型对于五种视觉概念常识（颜色、形状、材质、大小和视觉共现性）的捕获能力，并探讨了报告偏差对于这种能力的影响，具体地说，本文的贡献如下：

1.设计了一个全面的视觉常识分析数据集ViComTe，用于探究视觉常识知识。2.利用ViComTe来探究单模态、多模态和多模态蒸馏模型捕获视觉常识的经验分布的能力。3.分析了数据集中存在报告偏差对于模型的视觉常识捕获能力的影响。

模型结构

图 1 ViComTe数据集统计

为了探究模型捕获视觉常识的能力，作者基于Visual Genome构建了视觉常识数据集ViComTe。如图1所示，ViComTe包含了5个视觉常识关系：颜色(corlor)、形状(shape)、材质(material)、大小(size)和视觉共现性(co-occurrence)，其中，大小关系分为size(smaller)和size(large)。每个视觉常识关系有多种具体的常识类别，如corlor中包含black, blue, read等多种颜色类别。常识数据以(sub, obj)元组的形式进行存储，每种视觉常识类别都包含了一种提示模板，用于构建输入，来从模型中探寻视觉常识知识。每个模板中都包含[subj]和[obj]两个特殊token，[subj]用具体的物体类别（如sky）进行替换，[obj]用[MASK] token进行替换。

图 2模型结构图

在构建ViComTe时，作者统计了物体在某种视觉常识知识上的概率分布情况，并使用构建的模板做探针预测，得到模型输出的概率分布，通过比较两种分布之间的相关性，得出模型对于视觉常识知识的捕获能力。

作者还基于Wikipedia纯文本数据构建了一个常识数据集，用于做对比实验。

实验

作者首先对构建的两个数据集ViComTe和Wikipedia与CoDa数据集进行了对比评估：

由于CoDa数据集是通过人工标注的手段进行构建的，所以包含的报告偏差较差，通过与CoDa进行对比可得出数据集中存在的报告偏差。如图所示，相比与Wikipedia，ViComTe与CoDa的斯皮尔曼相关性更高，得出ViComTe中报告偏差比Wikipedia数据集要少。作者还将数据集分成了三个子集：SINGLE包含了最常见类别的概率大于80%的物体；MULTI包含了TOP4类别概率和大于90%的物体；ANY包含除SINGLE和MULTI外的其他物体。可以看到，SINGLE的相关性要比MULTI和ANY低，表示SINGLE中报告偏差较为严重。

作者分别测试了单流模型（BERT，ALBERT，RoBERTa）和双流模型（VisualBERT，Oscar，CLIP，vokenization-based model），以及蒸馏Oscar和CaptionBERT。测试时有两种评估方法：

•zero-shot probe：训练任务中有MLM目标的模型，直接输入构造的prompt模板。•representation probe: CLIP这种没有MLM目标的模型，添加一个逻辑回归层，Oscar添加一个单词预测头。

此外作者还使用了soft prompt，针对size关系设计了不同的评估方法。