【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器 - 专知VIP

会员服务 ·

1

视觉对话 · ACM Multimedia 2020 ·

2020 年 10 月 11 日

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

面向目标的视觉对话包括两个代理者，提问者和Oracle之间的多回合交互。在此期间，Oracle给出的答案是非常重要的，因为它为提问者所关心的问题提供了黄金回答。在回答的基础上，提问者更新了对目标视觉内容的信念，进而提出了另一个问题。值得注意的是，不同的答案会导致不同的视觉信念和未来问题。但是，现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码，导致对答案的利用率较低。在本文中，我们提出了一个答案驱动的视觉状态估计器(ADVSE)，以施加不同的答案对视觉状态的影响。首先，我们提出了一种基于回答驱动的聚焦注意力(ADFA)，通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力，来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上，通过条件视觉信息融合(CVIF)对问题-应答状态进行融合，得到整体信息和差异信息的视觉状态估计。

成为VIP会员查看完整内容

19

相关内容

视觉对话

视觉对话主要任务为：AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言，给定图像，对话历史和关于图像的问题，代理必须将问题置于图像中，从历史推断上下文，并准确的回答问题。视觉对话具有访问和理解的多轮对话历史，所以需要一个可以组合多个信息源的编码器。

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

人工智能头条

4+阅读 · 2018年7月2日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

Reliability Model for Incentive-Driven IoT Energy Services

Arxiv

0+阅读 · 2020年11月25日

Zero-Shot Visual Slot Filling as Question Answering

Arxiv

0+阅读 · 2020年11月24日

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

VIP会员

相关主题

ACM Multimedia 2020

相关VIP内容

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

人工智能头条

4+阅读 · 2018年7月2日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

相关论文

Reliability Model for Incentive-Driven IoT Energy Services

Arxiv

0+阅读 · 2020年11月25日

Zero-Shot Visual Slot Filling as Question Answering

Arxiv

0+阅读 · 2020年11月24日

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

微信扫码咨询专知VIP会员