【ECCV2022】用于视频问题回答的视频图Transformer - 专知

会员服务 ·

0

【ECCV2022】用于视频问题回答的视频图Transformer

2022 年 8 月 3 日 专知

本文提出了一种用于视频问答(VideoQA)的视频图形转换(VGT)模型。VGT的独特性有两个方面: 1) 它设计了一个动态图transformer模块，通过显式捕获视觉对象、它们的关系和动态来编码视频，用于复杂的时空推理; 2) 利用解纠缠的视频和文本Transformer进行视频和文本之间的相关性比较来进行QA，而不是使用纠缠的交叉模态Transformer进行答案分类。视觉-文本通信是通过附加的跨模态交互模块完成的。通过更合理的视频编码和QA解决方案，我们表明VGT在无预训练场景下可以在挑战动态关系推理的VideoQA任务上实现比现有技术更好的性能。它的性能甚至超过了那些用数百万外部数据预训练的模型。我们进一步表明，VGT也可以从自监督跨模态预训练中获益很多，但数据的数量级更小。这些结果清楚地证明了VGT的有效性和优越性，并揭示了它在数据效率更高的预训练方面的潜力。通过全面的分析和一些启发式的观察，我们希望VGT能够推动VQA研究从粗的识别/描述转向现实视频中细粒度的关系推理。我们的代码可在https://github.com/sail-sg/VGT获得

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“VQAT” 就可以获取《【ECCV2022】用于视频问题回答的视频图Transformer》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

视频

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知

3+阅读 · 2022年2月21日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

多模态融合的大规模网络视频名人标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

资源受限的视频传感器网络目标跟踪定位及一致性估计问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

Spatial Entropy as an Inductive Bias for Vision Transformers

Arxiv

0+阅读 · 2022年10月4日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

VIP会员

相关主题

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

【CVPR 2022】跨模态检索的协同双流视觉-语言前训练模型，COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval

专知会员服务

13+阅读 · 2022年3月12日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【AAAI2022】(2.5+1)D时空场景图用于视频问答

【AAAI2022】(2.5+1)D时空场景图用于视频问答

专知

3+阅读 · 2022年2月21日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

相关基金

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

多模态融合的大规模网络视频名人标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

资源受限的视频传感器网络目标跟踪定位及一致性估计问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

相关论文

Spatial Entropy as an Inductive Bias for Vision Transformers

Arxiv

0+阅读 · 2022年10月4日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员