面向目标的视觉对话包括两个代理者,提问者和Oracle之间的多回合交互。在此期间,Oracle给出的答案是非常重要的,因为它为提问者所关心的问题提供了黄金回答。在回答的基础上,提问者更新了对目标视觉内容的信念,进而提出了另一个问题。值得注意的是,不同的答案会导致不同的视觉信念和未来问题。但是,现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码,导致对答案的利用率较低。在本文中,我们提出了一个答案驱动的视觉状态估计器(ADVSE),以施加不同的答案对视觉状态的影响。首先,我们提出了一种基于回答驱动的聚焦注意力(ADFA),通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力,来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上,通过条件视觉信息融合(CVIF)对问题-应答状态进行融合,得到整体信息和差异信息的视觉状态估计。

成为VIP会员查看完整内容
18

相关内容

视觉对话主要任务为:AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言,给定图像,对话历史和关于图像的问题,代理必须将问题置于图像中,从历史推断上下文,并准确的回答问题。视觉对话具有访问和理解的多轮对话历史,所以需要一个可以组合多个信息源的编码器。
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
【AGV】仓库内多AGV协作的全局路径规划算法的研究
产业智能官
27+阅读 · 2018年11月10日
一种轻量级在线多目标车辆跟踪方法
极市平台
13+阅读 · 2018年8月18日
论文浅尝 | 端到端神经视觉问答之上的显式推理
开放知识图谱
7+阅读 · 2018年6月28日
【AAAI专题】中篇:BRAVE组系列研究进展之“视听模态的生成”
中国科学院自动化研究所
4+阅读 · 2018年1月25日
【深度】GAN与平行视觉|王坤峰副研究员
中国科学院自动化研究所
8+阅读 · 2017年8月18日
Arxiv
0+阅读 · 2020年11月25日
Arxiv
0+阅读 · 2020年11月24日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
相关VIP内容
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
16+阅读 · 2020年8月21日
微信扫码咨询专知VIP会员