本文提出了一种用于视频问答(VideoQA)的视频图形转换(VGT)模型。VGT的独特性有两个方面: 1) 它设计了一个动态图transformer模块,通过显式捕获视觉对象、它们的关系和动态来编码视频,用于复杂的时空推理; 2) 利用解纠缠的视频和文本Transformer进行视频和文本之间的相关性比较来进行QA,而不是使用纠缠的交叉模态Transformer进行答案分类。视觉-文本通信是通过附加的跨模态交互模块完成的。通过更合理的视频编码和QA解决方案,我们表明VGT在无预训练场景下可以在挑战动态关系推理的VideoQA任务上实现比现有技术更好的性能。它的性能甚至超过了那些用数百万外部数据预训练的模型。我们进一步表明,VGT也可以从自监督跨模态预训练中获益很多,但数据的数量级更小。这些结果清楚地证明了VGT的有效性和优越性,并揭示了它在数据效率更高的预训练方面的潜力。通过全面的分析和一些启发式的观察,我们希望VGT能够推动VQA研究从粗的识别/描述转向现实视频中细粒度的关系推理。我们的代码可在https://github.com/sail-sg/VGT获得

成为VIP会员查看完整内容
12

相关内容

【KDD2022教程】Transformers多模态数据分类,41页ppt
专知会员服务
83+阅读 · 2022年8月18日
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
专知会员服务
65+阅读 · 2021年10月15日
专知会员服务
18+阅读 · 2021年9月13日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
101+阅读 · 2020年7月22日
【ICML2022】时序自监督视频transformer
专知
1+阅读 · 2022年7月28日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
【KDD2022教程】Transformers多模态数据分类,41页ppt
专知会员服务
83+阅读 · 2022年8月18日
【ICML2022】时序自监督视频transformer
专知会员服务
30+阅读 · 2022年7月28日
【ICML2022】结构感知Transformer的图表示学习
专知会员服务
48+阅读 · 2022年6月17日
【CVPR2022】UniVIP:自监督视觉预训练的统一框架
专知会员服务
27+阅读 · 2022年3月16日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
专知会员服务
65+阅读 · 2021年10月15日
专知会员服务
18+阅读 · 2021年9月13日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
101+阅读 · 2020年7月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
35+阅读 · 2022年3月14日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
102+阅读 · 2021年6月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
19+阅读 · 2020年12月23日
微信扫码咨询专知VIP会员