论文题目:Learning to Answer Questions in Dynamic Audio-Visual Scenarios

作者:李光耀*,卫雅珂*,田亚鹏,胡迪,徐成良,文继荣

通讯作者:胡迪

论文概述:我们在本文中聚焦于视听问答(AVQA)任务,该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究,我们创建了一个大规模的AVQA数据集,其中包含超过45K个问答对,并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务,我们提出了一些基线方法,并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务,并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台,用于评估和促进视听场景理解和时空推理的研究。

成为VIP会员查看完整内容
7

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
32+阅读 · 2021年10月9日
AAAI2022 预训练中的多模态信息融合与表征探究
RUC AI Box
3+阅读 · 2022年3月15日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
7+阅读 · 2021年12月1日
论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models
开放知识图谱
1+阅读 · 2021年9月23日
论文浅尝 | 利用冻结语言模型的多模态少样本学习
开放知识图谱
0+阅读 · 2021年8月28日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
小样本学习(Few-shot Learning)综述
机器之心
18+阅读 · 2019年4月1日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
Towards Fine-grained Causal Reasoning and QA
Arxiv
0+阅读 · 2022年4月15日
Arxiv
28+阅读 · 2022年3月28日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年10月9日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员