Dialog is an effective way to exchange information, but subtle details and nuances are extremely important. While significant progress has paved a path to address visual dialog with algorithms, details and nuances remain a challenge. Attention mechanisms have demonstrated compelling results to extract details in visual question answering and also provide a convincing framework for visual dialog due to their interpretability and effectiveness. However, the many data utilities that accompany visual dialog challenge existing attention techniques. We address this issue and develop a general attention mechanism for visual dialog which operates on any number of data utilities. To this end, we design a factor graph based attention mechanism which combines any number of utility representations. We illustrate the applicability of the proposed approach on the challenging and recently introduced VisDial datasets, outperforming recent state-of-the-art methods by 1.1% for VisDial0.9 and by 2% for VisDial1.0 on MRR. Our ensemble model improved the MRR score on VisDial1.0 by more than 6%.


翻译:对话是交流信息的有效途径,但微妙的细节和细微差别极为重要。 虽然显著的进展为用算法进行视觉对话铺平了一条路径,但细节和细微差别仍然是一个挑战。 注意机制已经显示出令人信服的结果,在直观回答中提取细节,并且由于可解释性和有效性为视觉对话提供了一个令人信服的框架。 但是,视觉对话中的许多数据工具对现有的关注技术提出了挑战。 我们处理这一问题,并为视觉对话开发了一个一般关注机制,在任何数量的数据工具上运作。 为此,我们设计了一个以系数图为基础的关注机制,将任何数量的实用表示方式结合起来。 我们举例说明了拟议方法在挑战性和最近引入的维西亚数据集上的适用性,VisDial0.9比1.1%的最近最新最新最新水平方法,而VisDial1.0的MRR值比比6%以上。 我们的共振模型将VisDial1.0的MRR分数提高了6%以上。

6
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Signed Graph Attention Networks
Arxiv
7+阅读 · 2019年9月5日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
9+阅读 · 2018年5月24日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
Top
微信扫码咨询专知VIP会员