【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗? - 专知VIP

会员服务 ·

1

Transformer · ICML 2021 ·

2021 年 8 月 20 日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Transformers已经成功地完成了许多自然语言处理任务。然而，由于计算复杂度高和缺乏自然标记化，将Transformers应用于视频领域的任务，如长期视频生成和场景理解仍然是难以实现的。在本文中，我们提出了以对象为中心的视频转换器(OCVT)，它利用以对象为中心的方法将场景分解成适合于生成视频转换器使用的令牌。通过将视频分解为对象，我们的完全无监督模型能够学习场景中多个交互对象的复杂时空动态，并生成视频的未来帧。与基于像素的模型相比，我们的模型的内存效率更高，因此能够使用单个48GB GPU训练70帧长度的视频。我们将我们的模型与以前基于RNN的方法以及其他可能的视频Transformer基线进行了比较。我们证明OCVT在生成未来帧时比基线表现得更好。OCVT还为视频推理开发了有用的表示，在CATER任务上实现了最先进的性能。

https://www.zhuanzhi.ai/paper/d0e61883d921b542a2359f2276300783

成为VIP会员查看完整内容

13

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

Pytorch视频分类教程

Pytorch视频分类教程

专知

6+阅读 · 2019年5月25日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

CMU与FAIR联合发布非局部神经网络，有效提升视频分类、对象分割、姿态估计结果

CMU与FAIR联合发布非局部神经网络，有效提升视频分类、对象分割、姿态估计结果

机器学习研究会

5+阅读 · 2017年11月24日

Object-Region Video Transformers

Arxiv

0+阅读 · 2021年10月13日

Generative Video Transformer: Can Objects be the Words?

Arxiv

6+阅读 · 2021年7月20日

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

Arxiv

6+阅读 · 2021年6月21日

Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

Arxiv

5+阅读 · 2020年12月7日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Streamlined Dense Video Captioning

Arxiv

7+阅读 · 2019年4月8日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

相关VIP内容

人大最新《基于Transformer 的视频语言预训练》综述论文

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

【ICML2021】通过文本生成统一视觉和语言任务

专知会员服务

19+阅读 · 2021年9月13日

【ICML2021】GeomCA: 数据表示几何评估

专知会员服务

15+阅读 · 2021年9月11日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

【斯坦福】多模态常识推理:使用具有可解释性的视频和自然语言的

专知会员服务

35+阅读 · 2021年7月26日

【ICML2021】数据表示的几何评估

专知会员服务

38+阅读 · 2021年6月3日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【CVPR2021】用Transformers无监督预训练进行目标检测

【CVPR2021】用Transformers无监督预训练进行目标检测

专知会员服务

58+阅读 · 2021年3月3日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知

8+阅读 · 2020年8月11日

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】层次图推理的细粒度文本视频跨模态检索

专知

7+阅读 · 2020年4月5日

CVPR 2020 | 细粒度文本视频跨模态检索

CVPR 2020 | 细粒度文本视频跨模态检索

AI科技评论

17+阅读 · 2020年3月24日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

Pytorch视频分类教程

Pytorch视频分类教程

专知

6+阅读 · 2019年5月25日

【GAN货】用神经网络生成音乐

【GAN货】用神经网络生成音乐

专知

13+阅读 · 2018年9月15日

CMU与FAIR联合发布非局部神经网络，有效提升视频分类、对象分割、姿态估计结果

CMU与FAIR联合发布非局部神经网络，有效提升视频分类、对象分割、姿态估计结果

机器学习研究会

5+阅读 · 2017年11月24日

相关论文

Object-Region Video Transformers

Arxiv

0+阅读 · 2021年10月13日

Generative Video Transformer: Can Objects be the Words?

Arxiv

6+阅读 · 2021年7月20日

TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization

Arxiv

6+阅读 · 2021年6月21日

Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

Arxiv

5+阅读 · 2020年12月7日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Streamlined Dense Video Captioning

Arxiv

7+阅读 · 2019年4月8日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

微信扫码咨询专知VIP会员