视觉语言预训练(VLP)模型最近成功地促进了许多跨多模态的下游任务。大多数现有工作通过比较微调的下游任务性能来评估其系统。然而,只有平均下游任务精度很难评判一个 VLP 模型的优点和缺点。另外,下游任务千千万万,相信很多小伙伴们和我一样,对众多下游任务了解不多,更不用说用具体的下游任务去评测模型啦。今天就给大家安利一款不需要下游任务也能评测预训练模型的工具吧,感兴趣的小伙伴们赶紧去文末上手试用吧!
视觉语言预训练是多机器学习研究的一项基本任务。最近,由于多模态 Transformer 的出现和大型匹配图像文本语料库的可用性,VLP 取得了快速进展。许多的 VLP 模型有助于实现各种下游多模态任务的最先进性能,包括视觉 QA、多模态检索、视觉 Grounding 等。另一方面,当前评估 VLP 模型的实际方法是通过比较其微调的下游任务性能。然而,基于下游任务的基准 VLP 模型有许多局限性:
1. 可解释性差:下游任务很复杂,依赖于许多相互交织的能力,因此它只提供一个黑盒子得分,很难解释。例如,目前仍然不清楚如何改进在视觉 QA 方面表现出色但在图像检索中表现不佳的 VLP 模型。
2. 不可比较的结果:不同的工作可能会选择不同的任务进行评估,这使得比较困难。这是因为一些 VLP 模型与某些任务不兼容,例如 CLIP 无法直接针对视觉 QA 进行微调。
3. 数据偏置:下游数据分布不全面,因此实际性能可能被高估。此外,不能知道模型是否对输入噪声具有鲁棒性,例如用同义词替换动词。
既然基于下游任务的评测方法有这么多局限性,那有没有什么办法来解决呢?那当然有啦!本文就提出了 VL-CheckList 方法,这是一个可解释的框架,全面评估 VLP 模型,有助于加深理解并激发新的改进想法。VLCheckList 的核心原则主要有三点:
1. 评估VLP模型的基本能力,而不是下游应用的性能:基于这一点,作者选择图像文本匹配(ITM)作为主要评估目标,因为它可能是所有VLP方法中最有效的预训练目标。
2. 将能力分解为更易于分析的相对独立的变量:基于这一点,作者提出了一种分类法,将 VLP 系统的功能分为三类:对象、属性和关系。然后将每个类进一步划分为更细粒度的变量,例如属性由颜色、材料和大小等组成。
3. 语言感知的负样本采样策略,以创建难例负样本:这用于验证 VLP 模型对输入空间中微小变化的识别能力。
实验结果揭示了一些关于这些模型的有趣见解(心急的小伙伴可以先跳到实验部分看看这些见解吧),这些见解很难从下游任务分数中获得。本文的研究表明,与端到端方法相比,基于区域的方法在谓语推理中的性能更强;交叉注意力模型优于双编码器,尤其是对于较小和边缘对象。(大家可以在“评测结果”这一节中看到更多的有意思的结果哦!)
这个评测工具内部是怎么运行的呢?
VL-CheckList 的总体流程描述如上图所示,具体来说分为以下几步:
(1)通过将样本分类为三个类(对象、属性和关系)来转换图像-文本配对数据集。
(2)重写每个图像的成对文本,以生成每个类的负样本。
(3)使用 VLP 模型的 ITM 头来区分给定图像的正文本和负文本。
2.1 VL-CheckList的分类
确定任何物体的特定属性都是非常具有挑战性的。如果替换了文本中的正确属性,则一个视觉语言预训练模型的 ITM 头应分配较低的分数。属性通常包含颜色、材质、大小、状态和动作。
关系关注两个对象之间的交互。它包括在三元组中替换谓词(例如,主语、谓词、宾语),其中主语和宾语都是图像中的对象。强大的 ITM 头应该为匹配成对对象交互的文本分配更高的分数。此外,作者将预测分为空间预测和动作预测。如果谓词是空间介词之一(例如 in、on、at 等),则将其细分为“空间”,否则将其标记为“动作”。
负采样生成是对原始文本描述的一组转换。提出的 VL-CheckList 侧重于方向性期望测试,在该测试中,标签预计会以某种方式发生变化。例如,照片中有一只黑熊,文字描述为“一只黑熊拿着一根棍子”。可以应用集中变换(例如,<一只黑熊→ 一只红熊>,<一根棍子→ 一个苹果>,<拿着→ 投掷>,等等)。负采样策略是无偏评估的关键步骤。
为了生成难例负样本,作者使用结构化文本描述数据集,例如 Visual Genome(VG)、SWiG 和 Human Activity Knowledge Engine(HAKE)。VG 提供属性、关系和区域图,这些图可以通过替换图像中关系中的一个属性来生成难例样本。SWiG 数据集提供图像及其角色的结构化语义摘要。通过替换文本描述中的一个角色来生成难例负样本,使其与图像不匹配。HAKE 数据集提供了实例活动和身体部位状态之间的关系。
这个评测工具的评测指标是什么?
4.1 双编码器
作者使用了四个语料库,VG、SWiG、VAW 和 HAKE,为本文框架中的每个能力测试构建基准数据集。上表是测试数据集总结。然后,采用这些语料库创建 VL-CheckList 评估,步骤如下:
对象:关于对象,评估语料库是从 SWiG、VG 和 HAKE 数据集转换而来的。将对象分为两个评价指标:大小和位置。前者侧重于模型对图片中对象大小的理解,而后者侧重于模型对对象在图片中位置的关注。
属性:从 VG 和 VAW 数据集转换属性的评估语料库。根据 VAW 的属性分类,将属性分为五个评估指标:颜色、材料、大小、状态和动作。
上表显示了比较模型在对象、关系和属性方面的总体性能。无论采用何种模型,对象得分都高于属性和关系得分,这表明理解关系和属性比对象更难。ViLT 在对象上取得了最好的分数。OSCAR 获得的分数比其他模型都高,所有 E2E 模特在一个属性上的分数都相似。TCL 略高于其他模型。
6.1 对象(Object)上的测评
上表显示了不同尺寸和位置对模型性能的影响。具体来说,可以观察到所有模型在大和中心点的得分最高,这表明 VLP 模型倾向于关注较大的对象和中心点的对象。当从大到小以及从中心到边缘移动时,CLIP 的性能下降幅度最大(分别为 13.13% 和 11.87%)。此外,端到端(E2E)模型(ViLT、ALBEF 和 TCL)比其他模型对位置方差更具鲁棒性。平均而言,他们的得分从中间到边缘只下降了 2.82%,而基于区域的模型(OSCAR、UNITER 和 LXMERT)和 CLIP 的平均得分分别为 6.8% 和 11.87%。
上表显示了模型在位置变化方面的性能退化。显然,E2E 模型比基于区域的模型更稳定。作者推测其原因是图像级的自注意力机制可以帮助 E2E 模型灵活地聚焦于图像的任何区域。另一方面,基于区域的模型仅限于对象检测器的性能(例如Faster R-CNN),对于图像的某些区域,其检测性能可能会下降。此外,物体检测器往往忽略位于图像边缘的不完整物体,因此这些边缘物体不会被送到跨模态 Transformer 中。因此,基于区域的模型容易遗漏边缘中的一些有用信息。本文的假设可以通过图 6 和图 7 中的注意力图可视化得到支持。
如图 6(a)所示,其描述性文本为:wheel on car,car 是负样本中替换的单词。因此,作者希望该模型将重点放在汽车上,以实现良好的预测,但图 6(b)显示,物体检测器无法识别图像顶部的汽车。另一方面,E2E 模型正确地将注意力集中在汽车区域,如图 6(c)和 6(d)所示。另一个示例如图 7 所示,其描述性文本为:boy has pants,pants 是替换的单词。图 7(b)显示,物体检测器无法检测裤子,因为该物体在视觉上不清晰。作者观察到,基于区域的模型无法识别裤子,而 E2E 模型成功识别它(图 7(c)和 7(d))。
6.2 关系(Relation)上的测评
所有模型的关系性能通常较低(见上表),这表明检测关系是一个较难的问题。几乎所有模型的动作得分都高于空间得分,这表明学习相对空间更难。作者发现,E2E 方法的得分高于基于区域的方法。此外,CLIP 在动作上表现最好,ViLT 在空间上表现最好,OSCAR 获得了最佳的平均分。
作者进一步研究了编码器层数与关系之间的相关性。将单个模态层计算为半个多模态层,因此 OSCAR 和 UNITER 的编码器层数为 24,ALBEF 和 TCL 的编码器层数为 15,ViLT 和 LXMERT 的编码器层数为 12。可以观察到,动作性能随着层数的增加而增加,而对空间没有影响(上图)。另一方面,判断负样本仅替换介词不需要有很深的编码层。在空间上,具有 24 层的模型略优于具有 15 层的模型。
此外,作者生成热力图以显示 VLP 模型关注关系的位置(见上图)。图像的描述性文本是:这位女士正在办公桌上的电脑上工作,作者为单词“工作”生成了四种不同模型的热力图。一般来说,当谈到这个单词时,人类会关注女性用手在键盘上打字的区域。因此,OSCAR 和 ALBEF 做对了,而 LXMERT 对手和键盘的关注较少。ViLT 在纸和书上有注意力,但在人身上没有,这会导致预测失误。
与其他模型相比,CLIP 在所有属性指标上得分最低。E2E 方法比基于区域的方法实现更好的性能。在颜色和材质的结果中,与其他基于注意力的特征融合模型相比,CLIP 更容易受到复杂场景(对于 VG 数据集)的干扰。
论文的地址和代码就放在下面啦,各位感兴趣的小伙伴们可以玩起来啦!
论文地址:
https://arxiv.org/abs/2207.00221
https://github.com/om-ai-lab/vl-checklist
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧