【AAAI2022】(2.5+1)D时空场景图用于视频问答 - 专知VIP

会员服务 ·

9

视频问答 · AAAI 2022 · 论文 ·

2022 年 2 月 21 日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

用于基于视频的推理任务(如视频问答)的时空场景图方法通常为每一帧视频构建这样的图。这种方法通常忽略了一个事实，即视频本质上是发生在3D空间中的事件的2D“视图”序列，并且3D场景的语义也因此能够在帧间传递。利用这一观点，我们提出了一个(2.5+1)D场景图表示，以更好地捕捉视频中的时空信息流。具体来说，我们首先创建2.5D(伪3D)场景图，通过使用现成的2D到3D转换模块将每一帧2D画面转换成推断出的3D结构，然后我们将视频帧注册到共享的(2.5+1)D时空空间中，并将其中的每个2D场景图置于地面。这样一个(2.5+1)D图被分离成一个静态子图和一个动态子图，对应于其中的对象是否通常在世界中移动。动态图中的节点被运动特征所丰富，捕捉到它们与其他图节点的交互。接下来，在视频QA任务中，我们提出了一种新的基于Transformer的推理管道，将(2.5+1)D图嵌入到一个时空层次潜在空间中，在该空间中，子图及其交互以不同的粒度捕获。为了证明该方法的有效性，我们在NExT-QA和AVSD-QA数据集上进行了实验。我们的结果表明，我们提出的(2.5+1)D表示法导致了更快的训练和推理，而我们的分层模型在视频QA任务上的表现优于目前的技术水平。

成为VIP会员查看完整内容

24

相关内容

视频问答

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

11+阅读 · 2021年12月10日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】时空融合图神经网络的交通流预测

专知会员服务

110+阅读 · 2020年12月22日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

开放知识图谱

1+阅读 · 2021年9月20日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

泡泡机器人SLAM

41+阅读 · 2019年5月19日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于时空上下文数据的关联关系挖掘与推理技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

视频数据空间化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于学习的视频关注计算及其在互动视频技术中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

Faithful or Extractive? On Mitigating the Faithfulness-Abstractiveness Trade-off in Abstractive Summarization

Arxiv

0+阅读 · 2022年4月20日

Caption Feature Space Regularization for Audio Captioning

Arxiv

0+阅读 · 2022年4月18日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

A New Dynamic Algorithm for Densest Subhypergraphs

Arxiv

0+阅读 · 2022年4月17日

Preemptive Motion Planning for Human-to-Robot Indirect Placement Handovers

Arxiv

0+阅读 · 2022年4月16日

MVSTER: Epipolar Transformer for Efficient Multi-View Stereo

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

相关VIP内容

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

【NeurIPS 2021】自我挖掘——视频问答中对样本进行孪生采样和推理

专知会员服务

11+阅读 · 2021年12月10日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【AAAI2021】时间关系建模与自监督的动作分割

【AAAI2021】时间关系建模与自监督的动作分割

专知会员服务

37+阅读 · 2021年1月24日

【AAAI2021】时空融合图神经网络的交通流预测

专知会员服务

110+阅读 · 2020年12月22日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】自监督对应学习的对比转换

专知会员服务

20+阅读 · 2020年12月11日

【AAAI2021】利用先验知识对场景图进行分类

【AAAI2021】利用先验知识对场景图进行分类

专知会员服务

61+阅读 · 2020年12月3日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《海战法：海战中的人工智能与自主系统》最新45页

《美军条令：行动后评估》2025最新36页

中文版 | 先进通信技术

《国防系统提升可靠性与维护性评估效能的实践准则》最新64页

相关资讯

【CVPR2022】视频对比学习的概率表示

【CVPR2022】视频对比学习的概率表示

专知

1+阅读 · 2022年4月12日

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

CVPR2022 | 多模态Transformer用于视频分割效果惊艳

专知

0+阅读 · 2022年3月12日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知

3+阅读 · 2021年12月20日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知

0+阅读 · 2021年11月23日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

论文浅尝 | ERNIE-ViL：从场景图中获取结构化知识来学习视觉语言联合表示

开放知识图谱

0+阅读 · 2021年10月16日

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

开放知识图谱

1+阅读 · 2021年9月20日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

【泡泡点云时空】FlowNet3D：学习三维点云中的场景流

泡泡机器人SLAM

41+阅读 · 2019年5月19日

相关基金

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于时空上下文数据的关联关系挖掘与推理技术研究

国家自然科学基金

7+阅读 · 2014年12月31日

人群活动理解中基于时空共现模型的交互动作识别研究

国家自然科学基金

1+阅读 · 2013年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于时空流形学习与概率图模型的人体动作识别

国家自然科学基金

2+阅读 · 2012年12月31日

视频数据空间化方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉语义推理与上下文约束建模的场景理解方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于感知视觉单词描述的对象分割研究

国家自然科学基金

0+阅读 · 2009年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

基于学习的视频关注计算及其在互动视频技术中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Faithful or Extractive? On Mitigating the Faithfulness-Abstractiveness Trade-off in Abstractive Summarization

Arxiv

0+阅读 · 2022年4月20日

Caption Feature Space Regularization for Audio Captioning

Arxiv

0+阅读 · 2022年4月18日

End-to-end Dense Video Captioning as Sequence Generation

Arxiv

1+阅读 · 2022年4月18日

A New Dynamic Algorithm for Densest Subhypergraphs

Arxiv

0+阅读 · 2022年4月17日

Preemptive Motion Planning for Human-to-Robot Indirect Placement Handovers

Arxiv

0+阅读 · 2022年4月16日

MVSTER: Epipolar Transformer for Efficient Multi-View Stereo

Arxiv

0+阅读 · 2022年4月15日

PL-VINS: Real-Time Monocular Visual-Inertial SLAM with Point and Line Features

Arxiv

1+阅读 · 2022年4月15日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Counterfactual Zero-Shot and Open-Set Visual Recognition

Arxiv

12+阅读 · 2021年3月1日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

微信扫码咨询专知VIP会员