AAAI2020 | 自动化所&微信AI：双通道多步推理模型，更好解决视觉对话生成问题 - 专知

会员服务 ·

0

AAAI2020 | 自动化所&微信AI：双通道多步推理模型，更好解决视觉对话生成问题

2020 年 2 月 2 日 AI科技评论

作者 | 陈飞龙

编辑 | Camel

本文是对中科院自动化所和腾讯微信AI团队共同完成，被 AAAI2020 录用的论文《DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog》进行解读，相关工作已开源。

论文地址：https://arxiv.org/abs/1912.08360

代码地址：https://github.com/phellonchen/DMRM

为解决目前视觉对话系统中视觉语言两个模态之间的多轮指代、推理以及信息对齐等问题，自动化所陈飞龙博士、许家铭副研究员和徐波研究员等人与腾讯一起共建了一种双通道多步推理视觉对话生成模型，使得模型从视觉和语言两个方面丰富问题的语义表示，更好地针对问题生成高质量答复。

研究背景与研究目标

由于自然语言处理和计算机视觉技术的快速发展，多模态问题受到了越来越多的关注。视觉对话是一种视觉语言交互任务，需要AI智能体与人类围绕同一个输入图像进行交流。这是一项具有挑战性的任务，要求模型能够充分理解人类当前轮对话的提问，同时有效整合对话历史的语言模态和输入图像的视觉模态，以关注与当前问题相关的语义信息并进行推理，给出高质量答复。研究团队就视觉对话任务提出一种双通道多步推理模型（简称DMRM）。

图1 DMRM模型框架

实验方法

DMRM通过利用双通道推理同步地从对话历史和输入图像中捕获信息，以丰富问题的语义表示。

具体地说，DMRM维护一个跨模态交互的双通道（如图1所示，Track Module负责从视觉方面丰富问题的语义表示，Locate Module负责从对话历史方面丰富问题的语义表示），通过每个通道中的多步推理过程（如图2所示）获得与当前问题和对话历史相关的视觉特征，以及当前问题和输入图像相关的语言特征。此外，团队还设计了一种多模态注意机制，以进一步增强解码器来生成更准确的答复。

图2 多步推理的示意图

团队在视觉对话任务中的解码端引入多模态注意机制，有效地缓解了只利用编码端输出多模态信息融合的局限性，在解码过程中能够较好的进行一些错误纠正及语义丰富。

图3 基于多模态注意的解码器

实验结果

团队在VisDial v0.9和VisDial v1.0两个公开数据集上进行实验。VisDial v0.9包含了83k训练集，40k测试集，每一幅图像对应10轮对话和图像描述。VisDial v1.0包含了123k训练集，2k验证集和8k测试集。

表1和表2给出了不同模型在两个数据集上的实验效果。可以看出，在大多数评价指标上，双通道多步推理视觉对话生成模型DMRM都优于其他模型（其中，MRR、R@k越高越好，Mean越低越好）。

表1 不同模型在VisDial v0.9数据集上的实验结果

表2 不同模型在VisDial v1.0数据集的实验结果

表3显示了双通道多步推理视觉对话生成模型DMRM的消融实验，分析了各个模块对于视觉对话任务效果的影响，可以看出双通道多步推理以及多模态解码器都起到了重要作用。

表3 DMRM的消融实验

图4显示了DMRM模型生成的回答结果，融合了多模态解码器的DMRM模型在准确性和语义丰富性上表现更好。

图4 视觉对话生成结果样例

AAAI 2020 报道：

新型冠状病毒疫情下，AAAI2020 还去开会吗？

美国拒绝入境，AAAI2020现场参会告吹，论文如何分享？

AAAI 2020 论文集：

AAAI 2020 论文解读会 @ 望京（附PPT下载）

AAAI 2020上的NLP有哪些研究风向？

AAAI 2020 论文解读系列：

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型

02. [中科院自动化所] 全新视角，探究「目标检测」与「实例分割」的互惠关系

03. [北理工] 新角度看双线性池化，冗余、突发性问题本质源于哪里？

04. [复旦大学] 利用场景图针对图像序列进行故事生成

05. [腾讯 AI Lab] 2100场王者荣耀，1v1胜率99.8%，腾讯绝悟 AI 技术解读

06. [复旦大学] 多任务学习，如何设计一个更好的参数共享机制？

07. [清华大学] 话到嘴边却忘了？这个模型能帮你 | 多通道反向词典模型

08. [北航等] DualVD：一种视觉对话新框架

09. [清华大学] 借助BabelNet构建多语言义原知识库

10. [微软亚研] 沟壑易填：端到端语音翻译中预训练和微调的衔接方法

11. [微软亚研] 时间可以是二维的吗？基于二维时间图的视频内容片段检测

12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习，来扩充知识图谱（视频解读）

17. [上海交大] 基于图像查询的视频检索，代码已开源！

18. [奥卢大学] 基于 NAS 的 GCN 网络设计（视频解读）

19. [中科大] 智能教育系统中的神经认知诊断，从数据中学习交互函数

20. [北京大学] 图卷积中的多阶段自监督学习算法

21. [清华大学] 全新模型，对话生成更流畅、更具个性化（视频解读，附PPT）

22. [华南理工] 面向文本识别的去耦注意力网络

23. [自动化所] 基于对抗视觉特征残差的零样本学习方法

24. [计算所] 引入评估模块，提升机器翻译流畅度和忠实度（已开源）

25. [北大&上交大] 姿态辅助下的多相机协作实现主动目标追踪

26. [快手] 重新审视图像美学评估 & 寻找精彩片段聚焦点

27. [计算所&微信AI] 改进训练目标，提升非自回归模型翻译质量（已开源）

28. [中科院&云从科技]：双视图分类，利用多个弱标签提高分类性能

29. [中山大学] 基于树状结构策略的渐进强化学习

30. [东北大学] 基于联合表示的神经机器翻译（视频解读）

31. [计算所]引入评估模块，提升机器翻译流畅度和忠实度（视频解读）

32. [清华大学]用于少次关系学习的神经网络雪球机制（视频解读）

33. [计算所]非自回归机器翻译，基于n元组的训练目标（视频解读）

34. [清华大学] 司法考试数据集（视频解读，附下载链接）

35. [自动化所] 弱监督语义分割（视频解读）

36. [自动化所] 稀疏二值神经网络，不需要任何技巧，取得SOTA精度（视频解读）

37. [华科&阿里] 从边界到文本—一种任意形状文本的检测方法

38. [上交大&云从科技] DCMN+ 模型：破解「阅读理解」难题，获全球领先成绩

更多AAAI 2020信息，将在「AAAI 2020 交流群」中进行，加群方式：添加AI研习社顶会小助手（AIyanxishe2），备注「AAAI」，邀请入群。

点击“阅读原文” 前往 AAAI 2020 专题页

登录查看更多

1

相关内容

视觉对话

视觉对话主要任务为：AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言，给定图像，对话历史和关于图像的问题，代理必须将问题置于图像中，从历史推断上下文，并准确的回答问题。视觉对话具有访问和理解的多轮对话历史，所以需要一个可以组合多个信息源的编码器。

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

58+阅读 · 2020年6月24日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

论文浅尝 | 基于知识库的神经网络问题生成方法

论文浅尝 | 基于知识库的神经网络问题生成方法

开放知识图谱

19+阅读 · 2019年6月21日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

论文浅尝 | 基于图注意力的常识对话生成

论文浅尝 | 基于图注意力的常识对话生成

开放知识图谱

8+阅读 · 2019年2月5日

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

开放知识图谱

15+阅读 · 2018年9月24日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【ACL2018】文本问答新思路，动态空间记忆网络进行视觉推理

【ACL2018】文本问答新思路，动态空间记忆网络进行视觉推理

专知

6+阅读 · 2018年5月21日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Generating Question Relevant Captions to Aid Visual Question Answering

Generating Question Relevant Captions to Aid Visual Question Answering

Arxiv

5+阅读 · 2019年9月9日

Incorporating Relation Knowledge into Commonsense Reading Comprehension with Multi-task Learning

Arxiv

5+阅读 · 2019年9月5日

Factor Graph Attention

Factor Graph Attention

Arxiv

6+阅读 · 2019年4月11日

Multi-task learning to improve natural language understanding

Arxiv

4+阅读 · 2018年12月17日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

4+阅读 · 2018年9月25日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

4+阅读 · 2018年3月8日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

VIP会员

相关主题

中国科学院自动化研究所

相关VIP内容

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

58+阅读 · 2020年6月24日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

【清华大学】知识增强的常识性故事生成预训练模型，A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

专知会员服务

52+阅读 · 2020年1月20日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

【清华大学】利用知识增强的图神经网络进行多段推理，Multi-Paragraph Reasoning with Knowledge-enhanced Graph Neural Network

专知会员服务

95+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

论文浅尝 | 基于知识库的神经网络问题生成方法

论文浅尝 | 基于知识库的神经网络问题生成方法

开放知识图谱

19+阅读 · 2019年6月21日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

论文浅尝 | 基于图注意力的常识对话生成

论文浅尝 | 基于图注意力的常识对话生成

开放知识图谱

8+阅读 · 2019年2月5日

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

论文浅尝 | 基于常识知识图谱感知和图注意力机制的对话生成

开放知识图谱

15+阅读 · 2018年9月24日

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

论文浅尝 | 问题生成(QG)与答案生成(QA)的结合

开放知识图谱

16+阅读 · 2018年7月15日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【ACL2018】文本问答新思路，动态空间记忆网络进行视觉推理

【ACL2018】文本问答新思路，动态空间记忆网络进行视觉推理

专知

6+阅读 · 2018年5月21日

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

【干货】基于属性学习和额外知识库的图像描述生成和视觉问答

专知

18+阅读 · 2017年12月25日

相关论文

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Generating Question Relevant Captions to Aid Visual Question Answering

Generating Question Relevant Captions to Aid Visual Question Answering

Arxiv

5+阅读 · 2019年9月9日

Incorporating Relation Knowledge into Commonsense Reading Comprehension with Multi-task Learning

Arxiv

5+阅读 · 2019年9月5日

Factor Graph Attention

Factor Graph Attention

Arxiv

6+阅读 · 2019年4月11日

Multi-task learning to improve natural language understanding

Arxiv

4+阅读 · 2018年12月17日

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Arxiv

4+阅读 · 2018年9月25日

R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

Arxiv

7+阅读 · 2018年5月24日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

4+阅读 · 2018年3月8日

Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks

Arxiv

6+阅读 · 2018年2月12日

Object-based reasoning in VQA

Arxiv

6+阅读 · 2018年1月29日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员