论文浅尝 | CLIP-Event: 用事件结构连接文本和图像

2022 年 6 月 4 日 开放知识图谱

笔记整理：康婧淇，东南大学硕士，研究方向为多模态事件抽取、自然语言处理。

动机

视觉语言预训练模型通过理解图像和文本之间的排列组合，在支持多媒体应用方面取得了巨大成功。虽然现有的视觉语言预训练模型主要侧重于理解图像中的物体或文本中的实体，但它们往往忽略了事件及其论元结构层面上的对齐。

现实世界的多媒体应用不仅需要了解实体知识（即对象和对象类型），还需要了解事件知识（即事件类型）与事件论元结构（即涉及的实体及其关系）。例如，如今的多媒体新闻数据中的89%的图像包含了事件。此外，识别论元（参与者）对新闻的理解至关重要，因为如果论元扮演不同的角色，事件可能是相互矛盾的。

然而，现有的视觉语言预训练模型侧重于对图像或实体的理解，忽略了事件语义和结构。因此，这些模型在需要理解动词的情况下明显失败。因此，文章专注于将事件结构知识融入视觉语言预训练。

关于从新闻图像中提取事件结构的研究很少，对下游应用中需要的事件知识获取的支持有限。因此，文章建议利用在自然语言处理中得到充分研究的文本信息提取技术，从标题中自动提取事件结构。在新闻数据中，标题基本上指的是与图片相同的事件。因此，文章设计了一个自我监督的对比学习框架，CLIP-Event，利用标题中丰富的事件知识作为远距离监督来解释相关图像中的事件，以有效地跨模式转移事件知识。

贡献

文章的贡献有：

1.本文第一次提出在视觉-语言预训练中利用视觉事件和论元结构信息；2.本文提出一个由多种提示函数生成负面事件描述，以硬性负面事件和论元为条件的对比学习框架；3.本文提出了基于最优传输的事件图对齐方法，将以前的图像或物体对齐扩展到事件结构层面的对齐。4.本文公开了一个事件丰富的图像字幕数据集：VOANews，包括106,875张图像。

方法

对于文本模态，利用标题中的事件结构知识来对比关于事件类型和论元角色的硬性负样本（蓝色），具体做法是，首先从文本中抽取事件类型和论元，得到正样本，然后利用提示函数生成负样本。对于图像模态，首先将图像输入目标检测模型，然后经过Vision Encoder得到图像编码信息。接下来，根据最优传输方法实现事件知识的跨媒体转移。

•事件结构知识提取

文本和视觉知识提取：本文使用最先进的文本信息提取系统来提取187种类型的事件，涵盖了广泛的有新闻价值的事件。对于图像，作者使用在Open Images上训练的Faster R-CNN目标检测模型。

主要事件检测：当标题中有多个事件时，图像通常描述标题的主要事件。本文使用预训练CLIP模型来检测主要事件，这些主要事件比较接近依赖解析树的根事件，它们有更多的论元，事件类型频率更高，触发词和图像之间的相似度更高。然后根据这些标准对事件进行排名，并进行多数投票。

•事件结构驱动的负采样

负事件样本采样：首先计算事件类型分类器的混淆矩阵，该分类器是基于事件类型标签 $φ_v ϵΦ_V$ 和输入图像i之间的相似度分数，并选择最高的一个作为预测的事件类型 $ϕ_v^*$ 。

负论元样本采样：通过对论元角色序列进行右旋转来改变论元顺序。如果事件只有一个论元，就按照论元的混淆矩阵来抽取一个负论元样本。

描述生成方法：为了使用文本编码器对正面和负面事件结构进行编码，本文设计了多个提示函数，如表1所示。

•通过最优传输实现事件图的对齐

图像级别对齐：通过计算文本t和图像i之间的余弦相似度s(t, i)和距离d(t, i)实现，其中c(·, ·) = 1− cos(·, ·)，t由Text Transformer得到，i由Vision Transformer得到。

$s(t,i)=cos⁡(t,i),d(t,i)=c(t,i)$ ,

实体级别对齐：文本实体e和图像对象o之间的余弦距离同时考虑了事件提及的相似度和事件类型的相似度。

$d(e,o)=c(t_e,i_o )+c(ϕ_e,ϕ_o )$ ,

其中 $t_e$ 是实体e的文本提及，te是其嵌入句子的上下文。同样，io是对象o的边界框，io是其在图像上的嵌入上下文。 $\phi_e$ 和 $\phi_o$ 是由Text Transformer编码的类型表示。

事件级别对齐：为了基于两个图的结构获得全局对齐分数，本文使用最优传输来计算文本事件图Gt和图像事件图Gi之间的最小距离 $d(G_t, G_i)$ ：

其中，⊙表示Hadamard内积， $T∈R^{n×m}+$ 表示传输计划，用于优化两个图形之间的soft节点对齐。n和m分别是 $G_t$ 和 $G_i$ 中的节点数。也就是说，文本图 $G_t$ 中的每个节点可以以不同的权重转移到图像图 $G_i$ 中的多个节点。C是成本矩阵，表示事件节点之间和论元节点之间的成本。事件节点的成本是图像i和触发词v之间的余弦距离，论元<a, e>和边界框o之间的成本基于对象o与参数角色a和文本实体e的相似度。

然后，通过可微Sinkhorn-Knopp算法近似计算最优传输T∈Rn×m+。

其中， $pϵR_+^{n×1},q ϵR_+^{m×1}$ . 从任何正向量q0开始执行以下迭代过程：

•对比学习目标

本文优化了图像i和正面描述t+之间的余弦相似度，使其接近1，而负面描述t−接近0，

其中，DKL(·||·)是Kullback-Leibler散度，Ιt∈T+是指示函数，表示描述是否为肯定描述，它使模型能够处理任何数量的正面和负面描述。此外，本文还将同一batch中其他图像的描述作为负面描述。

本文将两个事件图之间的距离最小化，

事件和论元描述的对比学习以及事件图的对齐被联合优化，其中 $λ_1=λ_2=1$ 。

$L=λ_1 L_1+λ_2 L_2$

实验

（1）实验相关细节

评估任务包括五个部分：多媒体事件抽取(M2E2)，真实场景识别(GSR)，图像检索，视觉常识推理(VCR)和视觉常识实时推理。本文提出的视觉语言预训练模型使用一个新的数据集VOANews用于预训练，关于该数据集的信息如下表所示。本文使用ViT-B/32的Text和Vision Transformer来初始化编码器。Baselines选择了SOTA多模态预训练模型CLIP，SOTA事件抽取模型WASE和JSL，Ablation Study选择了CLIP-Event w/o Optimal Transport和单独的提示函数。

（2）实验结果

零样本CLIP-Event在M2E2数据集上的论元提取优于最先进的弱监督模型，表明所提出的最优传输对齐有效地捕获了论元结构，而以前的视觉语言预训练模型无法实现。

由于SWiG使用不同的论元边界框定位策略，CLIP-Event在M2E2上比SWiG获得更高的增益。SWiG将扮演相同角色的所有对象合并到一个大的边界框中。如图5b所示，本文的方法首先检测每个对象的论元角色，然后将相同角色的对象合并到一个大的边界框中。相比之下，M2E2允许多个对象具有相同的论元角色，如图5a所示。

（3）下游任务分析

针对图像检索任务，如图5所示，与Flickr30k和MSCOCO相比，VOANews由于标题中的各种事件和更难的句子结构而面临更大的挑战，VOANews上的改进远远高于Flickr30k和MSCOCO上的改进，这证明本文提出的模型能够处理冗长的句子，尤其是那些有很多事件的句子。下游任务受益于细粒度的事件图对齐。例如，在图6中，物体和调查人员以及被毁坏的汽车之间的强烈对齐使图像能够成功地排名更高。

针对VCR任务，Rationale 的F1比Answer的 F1改进得多。Rationale预测更具挑战性，因为它涉及到场景的细节，本文的细粒度对齐很好地捕捉到了这些细节。事件知识对下游任务尤其有益。在图7中，只有正确答案对应于输入图像的事件类型。

针对VisualCOMET任务，本文比较了CLIP-Event与SOTA模型的困惑度，该模型也是基于检索的。基线是使用VisualCOMET的训练集进行训练的，但本文的模型是一个无监督的模型，它实现了优异的性能，表明该模型能够理解图像中的事件。

总结

受到CLIP的启发，本文使用对比学习框架，利用基于混淆矩阵的事件结构来产生硬性负样本，并设计事件提示函数，将事件编码为自然句子。本文按照CLIP使用Text和Vision Transformers。对于文本，使用SOTA文本信息提取系统来提取187种类型的事件，涵盖了广泛的有新闻价值的事件。对于图像，应用在开放图像上训练的Faster R-CNN来检测物体。本文提出了一种结合事件结构知识的视觉语言预训练模型方法，通过自动从标题中提取事件知识，并通过对比学习监督图像事件结构的理解，进行事件知识的跨媒体转移。此外，本文提出了一个基于最优传输的事件图对齐损失，获得基于论元结构的全局对齐。该方法在零样本设置下的事件提取和下游任务上均优于目前最先进的视觉-语言预训练模型。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。