【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

2019 年 11 月 24 日 专知

导读

近年来，结合视觉和语言的跨媒体人工智能技术取得了很大进展。其中，视觉对话任务要求模型同时具备推理、定位、语言表述等能力，对跨媒体智能提出了更大挑战。本文介绍了中科院信工所于静等AAAI2020的论文《DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue》（AAAI 2020）, 该文针对视觉对话中涉及的图像内容范围广、多视角理解困难的问题，提出一种用于刻画图像视觉和语义信息的自适应双向编码模型——DualVD，从视觉目标、视觉关系、高层语义等多层面信息中自适应捕获回答问题的依据，同时通过可视化结果揭示不同信息源对于回答问题的贡献，具有较强的可解释性。该论文是和阿德莱德大学、北京航空航天大学、微软亚洲研究院共同完成。

代码链接：https://github.com/JXZe/DualVD

论文链接：https://arxiv.org/abs/1911.07251

https://www.zhuanzhi.ai/paper/7cc3f5370a3c66f24e557fdf412c4f79

动机

综合分析语言和视觉等不同模态数据，对现实世界中的知识实现更加泛化的分析和推理，对推动人工智能的发展具有重要意义。近年来，跨媒体分析取得了显著进展，包括跨媒体检索、视觉问答、指代理解、图像描述生成、视觉对话等。其中，视觉对话任务要求模型根据图像、图像描述、对话历史回答当前问题。相比其他视觉-语言任务中主要关注特定的视觉目标或区域，视觉对话需要模型根据对话的推进，不断调整视角，关注问题涉及的多样的视觉信息。比如回答图1中的问题“Q1: Is the man on the skateboard?”，需要模型关注“the man”、“the skateboard”等前景信息，而问题“Q5: Is there sky in the picture?”又将视角转移到背景信息“sky”。除了Q1和Q5这类涉及表象层面（appearance-level）的问题，问题“Q4: Is he young or older?”又需要推理视觉内容得到高层语义信息。因此，如何在对话过程中自适应地捕获回答问题所需的视觉线索是视觉对话中的重要挑战之一。

图1 DualVD模型基本思想。（左）模型输入；（右）视觉和语义信息理解模块。模型根据多模态线索推理当前问题的答案。

核心思想

认知学中双向编码理论（Dual-Coding Theory）认为：人类大脑编码信息包括两种方式，即视觉表象和关联文本. 当被问到某个概念时，大脑会检索相关的视觉信息、语言信息或综合考虑上述两种信息。这种双向编码方式能够增强大脑的记忆和理解能力。作者受该理论启发，首先提出了一种从视觉和语义两方面刻画图像信息的新框架：视觉模块刻画图像中的主体目标和目标间的视觉关系，语义模块刻画图像中抽象的局部和全局高层语义信息。基于上述框架，作者提出了一种自适应视觉信息选择模型DualVD (Dual Encoding Visual Dialogue)：（1）模态内信息选择：由问题驱动，分别在视觉模块和语义模块中获得独立线索；（2）模态间信息选择：由问题驱动，获得视觉-语义的联合线索。

论文的主要贡献有三点 ：

提出一种刻画图像信息的新框架，涵盖视觉对话中广泛的视觉内容；
提出一种自适应视觉信息选择模型，并支持显示地解释信息选择过程；
多个数据集上的实验结果显示，该模型优于大部分现有工作。

模型设计

视觉对话任务定义：给定图像I，图像描述C和t-1轮的对话历史Ht={C,(Q₁,A₁),...,(Q_t-1,A_t-1)}, 以及当前轮问题Q，该任务要求从100个候选答案A=(A₁,A₂,...,A₁₀₀) 中选择最佳答案。

DualVD模型结构如图2所示，模型核心结构分为两部分：Visual-Semantic Dual Encoding和Adaptive Visual-Semantic Knowledge Selection。

图2 DualVD模型结构图

1. Visual-Semantic Dual Encodings：提出刻画图像的视觉信息和语义信息的新框架，其中视觉信息采用场景图表示，语义信息采用多层面语义描述表示。

Scene Graph Construction：将每幅图像表示为一个场景图，同时刻画图像的目标和视觉关系信息。采用Faster-RCNN提取图像中N个目标区域，构成场景图上的结点，结点i的特征定义为h_i；采用Zhang等提出的视觉关系编码器在GQA数据集上预训练，将给定图像中任何两个目标区域间的视觉关系编码为关系向量，构成场景图上的边，结点i和结点j间的关系向量定义为r_ij。相比现有方法采用关系类别表示场景图的边，作者考虑了视觉关系的多样性、歧义性，采用关系的嵌入表示能够更准确表达目标间的视觉关系。

Multi-level Image Captions：将每幅图像表示为多层面的语义描述，同时刻画图像的局部和全局语义信息。相比视觉特征，语言描述的优势在于能够更直接的为问题提供线索，避免了不同模态数据间的“异构鸿沟”。作者采用数据集提供的图像描述作为图像的全局语义信息；采用Feifei Li等提出的DenseCap提取描述细节的k条dense captions作为图像的局部语义信息。对全局和局部信息分别采用不同的LSTM提取特征，分别表示为C^~和Z^~={z₁,z₂,...,z_k}。

2. Adaptive Visual-Semantic Knowledge Selection：基于上述图像的视觉和语义表示，作者提出一种问题自适应的信息选择模型—DualVD。基于问题的引导，DualVD的信息选择过程分两步：首先，模态内信息选择分别通过视觉模块（Visual Module）和语义模块（Semantic Module）提取视觉和语义信息；之后，模态间特征选择通过选择性视觉-语义融合（Selective visual-semantic fusion）汇聚视觉模块和语义模块中问题相关的线索。

Visual Module

(1) uestion-guided relation attention: 基于问题引导，捕获和问题最相关的视觉关系。首先，通过门控机制从对话历史中选择问题相关的信息更新问题表示：

基于问题新表示Q_t^g的引导，计算场景图中每个关系的注意力：

基于注意力a_ij,更新场景图中每个关系的嵌入表示：

(2) Question-guided graph convolution: 模块首先采用基于关系的图注意力网络（Relation-based GAT）获得感知视觉关系的目标表示。首先，对于场景图中的结点，计算该借点对邻居结点j在关系rij条件下的注意力：

基于注意力β_ij更新场景图中每个结点的特征表示：

(3) Object-relation Information fusion: 采用门控机制融合感知关系的结点表示和原始结点表示：

为增强原始目标区域为回答问题提供的线索，作者基于原始目标区域的注意力分布，融合目标区域表示得到增强的图像表示I：

 Semantic Module

(1) Question-guided semantic attention: 基于问题引导，对全局和局部语义描述mi∈{C,z₁,z₂,...,z_k}计算注意力分布：

基于注意力δ_i^q分别更新全局和局部语义表示：

(2) Global-local information fusion: 采用门控机制融合全局语义表示和局部语义表示：

(3) Selective Visual-Semantic Fusion: 当被提问时，模型能够检索相关的视觉信息、语言信息或综合考虑上述两种信息。作者采用门控机制控制两种信息源对于回答问题的贡献，并获得最终的图像表示：

3. Late Fusion Discriminative Decoder: DualVD采用Late Fusion encoder和Discriminative decoder.模型在解码过程中，首先融合（拼接）更新后的问题表示、历史表示和图像表示，通过softmax得到在100个候选答案上的分布，排序选择最优的预测结果。作者表示，该模型和现有针对对话历史的研究工作具有互补优势，可以应用于更加复杂的encoder,如memory network, co-attention, adversarial network等。本篇论文重点证明所提出的视觉建模方法的有效性，因此采用了简单的Late Fusion encoder。

实现结果

作者在VisDial v0.9和VisDial v1.0上对模型的效果进行了验证。

State-of-the-art comparison

与现有算法相比，DualVD的结果超过现有大多数模型，略低于采用了多步推理和复杂attention机制的模型。

Ablation Study

作者做了充分的消融实验，验证模型各关键模块的作用，包括：ObjRep（目标特征）、RelRep(关系特征)、VisNoRel(视觉模块去掉关系嵌入表示)、VisMod(完整视觉模块)、GlCap(全局语义)、LoCap(局部语义)、SemMod(语义模块)、w/o ElMo (不用预训练语言模型)、DualVD(完整模型)。

实验结果表明，模型中的目标特征、关系特征、局部语义、全局语义对于提升回答问题的效果都起到了不同程度的作用。值得一提的是，相比传统图注意力模型，采用视觉关系的嵌入表示后，模型效果又有了进一步提升。