【ECCV2022】用于视频问题回答的视频图Transformer - 专知VIP

会员服务 ·

4

ECCV 2022 · Transformer · 视频分析 ·

2022 年 8 月 3 日

【ECCV2022】用于视频问题回答的视频图Transformer

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出了一种用于视频问答(VideoQA)的视频图形转换(VGT)模型。VGT的独特性有两个方面: 1) 它设计了一个动态图transformer模块，通过显式捕获视觉对象、它们的关系和动态来编码视频，用于复杂的时空推理; 2) 利用解纠缠的视频和文本Transformer进行视频和文本之间的相关性比较来进行QA，而不是使用纠缠的交叉模态Transformer进行答案分类。视觉-文本通信是通过附加的跨模态交互模块完成的。通过更合理的视频编码和QA解决方案，我们表明VGT在无预训练场景下可以在挑战动态关系推理的VideoQA任务上实现比现有技术更好的性能。它的性能甚至超过了那些用数百万外部数据预训练的模型。我们进一步表明，VGT也可以从自监督跨模态预训练中获益很多，但数据的数量级更小。这些结果清楚地证明了VGT的有效性和优越性，并揭示了它在数据效率更高的预训练方面的潜力。通过全面的分析和一些启发式的观察，我们希望VGT能够推动VQA研究从粗的识别/描述转向现实视频中细粒度的关系推理。我们的代码可在https://github.com/sail-sg/VGT获得

成为VIP会员查看完整内容

13

相关内容

ECCV 2022

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知

3+阅读 · 2022年1月20日

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

极市平台

0+阅读 · 2021年12月13日

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

机器之心

0+阅读 · 2021年12月12日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

高分辨计算周视全息光场信息压缩及其快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造性问题解决的动态神经加工模式研究

国家自然科学基金

0+阅读 · 2013年12月31日

动态纹理建模与应用的张量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

逐级靶向高分子纳米药物载体在抗癌药物传输上的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于深度学习框架的社交媒体信息挖掘

国家自然科学基金

4+阅读 · 2012年12月31日

利用多模态脑成像技术研究形状学习的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

语义计算与理解的资源共享与测评方法

国家自然科学基金

0+阅读 · 2009年12月31日

车载行人检测的快速分类计算模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

RepsNet: Combining Vision with Language for Automated Medical Reports

Arxiv

1+阅读 · 2022年9月27日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Medical Visual Question Answering: A Survey

Arxiv

15+阅读 · 2021年11月19日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

VIP会员

相关主题

相关VIP内容

【KDD2022教程】Transformers多模态数据分类，41页ppt

【KDD2022教程】Transformers多模态数据分类，41页ppt

专知会员服务

87+阅读 · 2022年8月18日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ICML2022】结构感知Transformer的图表示学习

【ICML2022】结构感知Transformer的图表示学习

专知会员服务

49+阅读 · 2022年6月17日

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

【CVPR2022】UniVIP：自监督视觉预训练的统一框架

专知会员服务

28+阅读 · 2022年3月16日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

67+阅读 · 2021年10月15日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【ECCV2022】对比视觉Transformer的在线持续学习

【ECCV2022】对比视觉Transformer的在线持续学习

专知

0+阅读 · 2022年7月30日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

【ICML2022】在线决策Transformer

【ICML2022】在线决策Transformer

专知

2+阅读 · 2022年7月27日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

【CVPR2022】高分辨率和多样化的视频-文本预训练模型

专知

0+阅读 · 2022年3月6日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知

3+阅读 · 2022年3月3日

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

【AAAI2022】视觉语言Transformer学习多模态表示吗?探索的角度来看

专知

0+阅读 · 2022年1月26日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知

3+阅读 · 2022年1月20日

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

极市平台

0+阅读 · 2021年12月13日

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

一个模型处理多种模态和任务，商汤等提出Uni-Perceiver，迈向通用预训练感知模型

机器之心

0+阅读 · 2021年12月12日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

高分辨计算周视全息光场信息压缩及其快速算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

创造性问题解决的动态神经加工模式研究

国家自然科学基金

0+阅读 · 2013年12月31日

动态纹理建模与应用的张量方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

逐级靶向高分子纳米药物载体在抗癌药物传输上的应用

国家自然科学基金

0+阅读 · 2012年12月31日

基于深度学习框架的社交媒体信息挖掘

国家自然科学基金

4+阅读 · 2012年12月31日

利用多模态脑成像技术研究形状学习的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于语言理解的机器翻译方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

语义计算与理解的资源共享与测评方法

国家自然科学基金

0+阅读 · 2009年12月31日

车载行人检测的快速分类计算模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

RepsNet: Combining Vision with Language for Automated Medical Reports

Arxiv

1+阅读 · 2022年9月27日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Medical Visual Question Answering: A Survey

Arxiv

15+阅读 · 2021年11月19日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

微信扫码咨询专知VIP会员