DualVD：借鉴认知双向编码理论，提出视觉对话新框架

会员服务 ·

DualVD：借鉴认知双向编码理论，提出视觉对话新框架 | AAAI 2020

2019 年 12 月 27 日 AI科技评论

作者 | 蒋萧泽

责编 | Camel

论文标题： DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

文章作者：蒋萧泽、于静、秦曾昌、张星星、吴琦等，由北京航空航天大学、中科院信工所、微软亚研院和阿德莱德大学合作完成。本论文已被AAAI 2020 接收。

论文链接： https://arxiv.org/abs/1911.07251

代码链接： https://github.com/JXZe/DualVD

论文动机

近年来，跨模态研究引发了广泛关注并取得显著进展，综合分析语言和视觉等不同模态的信息对模拟现实社会中人类对于信息的认知过程具有重要意义。

视觉对话问题是视觉问答任务的衍生任务，不同的是，视觉对话任务需要根据图像、历史对话回答当前问题，涉及多个问题且涵盖了可能与任何对象、关系或语义相关的广泛视觉内容，因此视觉对话需要根据对话的推进，不断调整关注区域使之有效地捕捉问题所涉及的视觉信息，针对不同问题对图像进行自适应的关注。

如下图 1 所示「Q1: Is the man on the skateboard?」, 需要关注「man」，「skateboard」等信息，当问题变换为「Q5: Is the sky in the picture」时，需要将关注区域转移至「sky」。问题 Q1 和 Q5 主要关注在表层（appearance-level）信息问题，而 Q4「Is he young or older」则需要进一步地视觉推理得到更高层的语义信息。因此，如何根据问题进行自适应调整并有效地捕捉视觉信息是视觉对话问题中的重要挑战之一。

图1 DualVD模型基本思想。（左）模型输入；（右）视觉和语义信息理解模块。

核心思想

根据认知学中的双向编码理论（Dual-Coding Theory）, 人类认知信息的过程包含视觉表象和关联文本，人的大脑在检索关于某个概念的信息时会综合检索视觉信息以及语言信息，这种方式能够加强大脑的理解以及记忆能力。

作者根据此理论，提出从视觉和语义两个维度刻画视觉对话任务中图象信息的新框架：语义模块描述图像的局部以及全局的高层语义信息，视觉模块描述图像中的对象以及对象之间的视觉关系。基于此框架，作者提出自适应视觉选择模型 DualVD（Duel Encoding Visual Dialog），分别进行模态内与模态之前的信息选择。

模型设计

视觉对话任务：根据给定图像 I，图像描述 C 和 t-1 轮的对话历史 Ht={C,(Q1,A1),...,(Qt-1,At-1)}, 以及当前轮问题 Q 等信息，从 100 个候选答案 A=(A1,A2,...,A100) 中选择针对当前轮问题 Q 的最佳答案。

作者为解决视觉对话任务所提出的 DualVD 模型框架如图 2 所示，主要分为 Visual-Semantic Dual Encoding 和 Adaptive Visual-Semantic Knowledge Selection 两部分。

图2 DualVD模型框架图

1、Visual-Semantic Dual Encoding

从视觉以及语义两个维度刻画视觉对话任务中图象信息的新框架，其中语义信息采用多层次语义描述表示，视觉信息采用场景图表示。

Scene Graph Construction ：利用场景图表示每一张图像，并捕捉图像之间目标对象以及对象间的视觉关系信息。作者采用 Faster-RCNN 提取出图像中 N 个目标区域，并将其表示为场景图上的结点，结点 i 的特征定义为 hi；采用 Zhang 等提出的视觉关系编码器在 GQA 数据集上进行预训练，用关系向量表示图像中的任意两个目标区域之间的视觉关系，并将其表示为场景图上的边，结点 i 和结点 j 之间的关系向量定义为 r_ij。目前现有的工作大多采用关系类别来表示场景图的边，相比而言作者利用关系向量表示场景图的边的方法能考虑到视觉关系的多样性，歧义性，更准确地表达目标对象之前的视觉关系。

Multi-level Image Captions ：将每幅图像表示为多层级的语义描述，同时刻画图像的局部和全局语义信息。相比于视觉特征，语义描述通过自然语言的信息表达出更高的语义层次，能够更加直接地为问题提供线索，避免了不同模态数据之间的「异构鸿沟」。作者采用数据集的图像描述作为全局语义信息，有助于回答探索场景的问题；采用 Feifei Li 等提出的 DenseCap 提取一组局部层次语义信息，包括对象属性，与对象相关的先验知识，以及对象之间的关系等。对全局和局部的语义信息采用不同的 LSTM 提取特征。

2、Adaptive Visual-Semantic Knowledge Selection

在视觉语义图像表示的基础上，作者提出了一种新的特征选择框架，从图像中自适应地选择与问题相关的信息。在当前问题的指导下，将特征选择过程设计为分层模式:模态内选择首先从视觉模块（Visual Module）和语义模块（Semantic Module）分别提取视觉信息和语义信息;然后通过选择性的视觉-语义融合（Selective visual-semantic fusion），汇聚视觉模块和语义模块中问题相关的线索。这种层次结构框架的优点是可以显式地揭示渐进特征选择模式。

Visual Module

1）Question-Guided Relation Attention ：基于问题引导，获取与问题最相关的视觉关系。首先，从对话历史中选择与问题相关的信息，通过门控机制更新问题表示，定义为:

基于问题新表示Qgt的引导，计算场景图中每个关系的注意力：

基于注意力aij,更新场景图中每个关系的嵌入表示：

2) Question-Guided Graph Convolution ：基于问题引导，通过基于关系的图注意网络聚集目标对象的邻域和对应关系的信息，进一步更新每个目标对象的表示。首先，根据场景图中的结点，计算该结点i对邻居结点j之前存在对应关系rij条件下的注意力：

其次，基于注意力βij更新场景图中每个结点的特征表示：

3) Object-relation Information fusion: 在视觉对话中，目标对象的视觉表层信息和视觉关系信息有助于推断答案。本模块中自适应地将原结点和感知关系结点通过门控机制进行融合得到问题相关的目标对象特征：

为增强原始目标区域的视觉信息提供的线索以及当前问题的影响，作者基于原始目标区域的注意力分布，融合目标区域表示得到增强的图像表示I：

Semantic Module

该模块通过问题引导语义注意模块和全局-局部信息融合模块，从全局和局部语义描述中选择和合并与问题相关的语义信息。

1）Question-guided semantic attention： 基于问题引导，对全局和局部语义描述计算注意力：

基于注意力δiq分别更新全局和局部语义表示：

2）Global-local information fusion： 采用门控机制自适应地融合全局语义表示和局部语义表示

3）Selective Visual-Semantic Fusion： 当被提问时，模型能够检索相关的视觉信息、语言信息或综合考虑上述两种信息。作者采用门控机制控制两种信息源对于回答问题的贡献，并获得最终的视觉知识表示：

3. Late Fusion and Discriminative Decoder

整个模型由 Late Fusion encoder 和 Discriminative decoder 组成。解码时，模型首先将每个部分嵌入一个对话元组中 D = {I; Ht; Qt}，然后将具有视觉知识表示的 Ht 和 Qt 连接到一个联合的输入中进行答案预测。解码器对 100 个候选答案进行排序。该模型还可以应用于更复杂的解码器和融合策略，如记忆网络、协同注意等。

实验结果

在 VisDial v0.9 和 VisDial v1.0 上对模型的效果进行了验证。与现有算法相比，DualVD 的结果超过现有大多数模型，略低于采用了多步推理和复杂 attention 机制的模型。

消融学习

VisDial v1.0 验证集的消融研究利用了 DualVD 主要成分的影响。作者使用相同的 Discriminative decoder 做了充分的消融实验验证模型各个关键模块的作用, 如 ObjRep（目标特征）、RelRep(关系特征)、VisNoRel(视觉模块去掉关系嵌入表示) 、VisMod(完整视觉模块)、GlCap(全局语义)、LoCap(局部语义)、SemMod(语义模块)、w/o ElMo (不用预训练语言模型)、DualVD(完整模型)。