【CVPR 2022】学习在动态视听情境中回答问题，Learning to Answer Questions in Dynamic Audio-Visual Scenarios - 专知VIP

会员服务 ·

0

CVPR 2022 · 视觉问答 · 多模态 · 时空视听网络 · 中国人民大学高瓴人工智能学院 ·

2022 年 3 月 12 日

【CVPR 2022】学习在动态视听情境中回答问题，Learning to Answer Questions in Dynamic Audio-Visual Scenarios

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：Learning to Answer Questions in Dynamic Audio-Visual Scenarios

作者：李光耀*，卫雅珂*，田亚鹏，胡迪，徐成良，文继荣

通讯作者：胡迪

论文概述：我们在本文中聚焦于视听问答(AVQA)任务，该任务旨在回答视频中不同视觉对象、声音及其关联的问题。其中问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究，我们创建了一个大规模的AVQA数据集，其中包含超过45K个问答对，并涵盖了不同模态下的9类问题类型以及33个不同的问题模板。为了探究AVQA任务，我们提出了一些基线方法，并引入了一个时空视听网络。实验结果表明多模态感知可以有益于AVQA任务，并且所提出的模型优于最近的A-、V-和AVQA方法。我们相信构建的数据集能够作为测试平台，用于评估和促进视听场景理解和时空推理的研究。

成为VIP会员查看完整内容

8

相关内容

CVPR 2022

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

专知会员服务

9+阅读 · 2022年3月12日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐，还开源9288个视频数据集

CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐，还开源9288个视频数据集

机器之心

0+阅读 · 2022年4月18日

CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院

CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院

量子位

0+阅读 · 2022年4月13日

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

开放知识图谱

1+阅读 · 2021年9月23日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于仿生视觉的时空超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习框架的社交媒体信息挖掘

国家自然科学基金

4+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂环境下智能轮椅的感知与控制

国家自然科学基金

3+阅读 · 2011年12月31日

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning

Arxiv

1+阅读 · 2022年4月15日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

VIP会员

相关主题

时空视听网络

中国人民大学高瓴人工智能学院

相关VIP内容

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

【CVPR 2022】通过动态梯度调制平衡视听学习，Balanced Audio-visual Learning via On-the-fly Gradient Modulation

专知会员服务

9+阅读 · 2022年3月12日

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

【香港科技大学等】视觉-语言智能:任务、表示学习和大模型，Vision-Language Intelligence: Tasks, Representation Learning, and Large Models

专知会员服务

44+阅读 · 2022年3月8日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

【IBM】在视觉和关系推理中迁移学习，Transfer Learning in Visual and Relational Reasoning

专知会员服务

45+阅读 · 2020年1月15日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能学习、优化与推演美国海军作战部队的战略布局与分散（续文）》

《无人军用移动机器人中密码学与导航系统的集成：当前趋势与前景综述》

《指挥官意图消息中关键概念自动提取》最新47页

《深入机器人领域：DARPA地下挑战赛分析与洞见》

相关资讯

CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐，还开源9288个视频数据集

CVPR 2022 Oral | 人大高瓴人工智能学院让AI学会了听音乐，还开源9288个视频数据集

机器之心

0+阅读 · 2022年4月18日

CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院

CVPR2022 Oral | AI学会“欣赏”音乐会，还get了推理技能，来自人大高瓴AI学院

量子位

0+阅读 · 2022年4月13日

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

开放知识图谱

1+阅读 · 2021年9月23日

论文浅尝 | 利用冻结语言模型的多模态少样本学习

论文浅尝 | 利用冻结语言模型的多模态少样本学习

开放知识图谱

0+阅读 · 2021年8月28日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

相关基金

多层时空并行 Schwarz 算法的研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于仿生视觉的时空超分辨率重建方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于深度学习框架的社交媒体信息挖掘

国家自然科学基金

4+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂环境下智能轮椅的感知与控制

国家自然科学基金

3+阅读 · 2011年12月31日

相关论文

Nested Collaborative Learning for Long-Tailed Visual Recognition

Arxiv

0+阅读 · 2022年4月19日

Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning

Arxiv

1+阅读 · 2022年4月15日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Learning to Respond with Stickers: A Framework of Unifying Multi-Modality in Multi-Turn Dialog

Arxiv

14+阅读 · 2020年3月10日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

微信扫码咨询专知VIP会员