【AAAI2022】(2.5+1)D时空场景图用于视频问答 - 专知

会员服务 ·

0

【AAAI2022】(2.5+1)D时空场景图用于视频问答

2022 年 2 月 21 日 专知

用于基于视频的推理任务(如视频问答)的时空场景图方法通常为每一帧视频构建这样的图。这种方法通常忽略了一个事实，即视频本质上是发生在3D空间中的事件的2D“视图”序列，并且3D场景的语义也因此能够在帧间传递。利用这一观点，我们提出了一个(2.5+1)D场景图表示，以更好地捕捉视频中的时空信息流。具体来说，我们首先创建2.5D(伪3D)场景图，通过使用现成的2D到3D转换模块将每一帧2D画面转换成推断出的3D结构，然后我们将视频帧注册到共享的(2.5+1)D时空空间中，并将其中的每个2D场景图置于地面。这样一个(2.5+1)D图被分离成一个静态子图和一个动态子图，对应于其中的对象是否通常在世界中移动。动态图中的节点被运动特征所丰富，捕捉到它们与其他图节点的交互。接下来，在视频QA任务中，我们提出了一种新的基于Transformer的推理管道，将(2.5+1)D图嵌入到一个时空层次潜在空间中，在该空间中，子图及其交互以不同的粒度捕获。为了证明该方法的有效性，我们在NExT-QA和AVSD-QA数据集上进行了实验。我们的结果表明，我们提出的(2.5+1)D表示法导致了更快的训练和推理，而我们的分层模型在视频QA任务上的表现优于目前的技术水平。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“25D” 就可以获取《【AAAI2022】(2.5+1)D时空场景图用于视频问答》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

3

相关内容

场景图

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】时空融合图神经网络的交通流预测

专知会员服务

110+阅读 · 2020年12月22日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

基于时空上下文数据的关联关系挖掘与推理技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频数据空间化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking

Arxiv

0+阅读 · 2022年4月19日

A Novel Sybil Attack Detection Scheme Based on Edge Computing for Mobile IoT Environment

Arxiv

0+阅读 · 2022年4月19日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

VIP会员

相关主题

相关VIP内容

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】时空融合图神经网络的交通流预测

专知会员服务

110+阅读 · 2020年12月22日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

相关基金

基于时空上下文数据的关联关系挖掘与推理技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频数据空间化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking

Arxiv

0+阅读 · 2022年4月19日

A Novel Sybil Attack Detection Scheme Based on Edge Computing for Mobile IoT Environment

Arxiv

0+阅读 · 2022年4月19日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员