论文题目:Learning to Answer Questions in Dynamic Audio-Visual Scenarios
作者:李光耀*,卫雅珂*,田亚鹏,胡迪,徐成良,文继荣
通讯作者:胡迪
论文概述:我们在本文中聚焦于视听问答(AVQA)任务,该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究,我们创建了一个大规模的AVQA数据集,其中包含超过45K个问答对,并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务,我们提出了一些基线方法,并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务,并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台,用于评估和促进视听场景理解和时空推理的研究。