Transformers已经成功地完成了许多自然语言处理任务。然而,由于计算复杂度高和缺乏自然标记化,将Transformers应用于视频领域的任务,如长期视频生成和场景理解仍然是难以实现的。在本文中,我们提出了以对象为中心的视频转换器(OCVT),它利用以对象为中心的方法将场景分解成适合于生成视频转换器使用的令牌。通过将视频分解为对象,我们的完全无监督模型能够学习场景中多个交互对象的复杂时空动态,并生成视频的未来帧。与基于像素的模型相比,我们的模型的内存效率更高,因此能够使用单个48GB GPU训练70帧长度的视频。我们将我们的模型与以前基于RNN的方法以及其他可能的视频Transformer基线进行了比较。我们证明OCVT在生成未来帧时比基线表现得更好。OCVT还为视频推理开发了有用的表示,在CATER任务上实现了最先进的性能。

https://www.zhuanzhi.ai/paper/d0e61883d921b542a2359f2276300783

成为VIP会员查看完整内容
12

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
44+阅读 · 2021年9月27日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
35+阅读 · 2021年6月3日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【CVPR2021】跨模态检索的概率嵌入
专知
16+阅读 · 2021年3月2日
CVPR 2020 | 细粒度文本视频跨模态检索
AI科技评论
17+阅读 · 2020年3月24日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Pytorch视频分类教程
专知
6+阅读 · 2019年5月25日
【GAN货】用神经网络生成音乐
专知
13+阅读 · 2018年9月15日
Arxiv
0+阅读 · 2021年10月13日
Arxiv
7+阅读 · 2019年4月8日
VIP会员
相关VIP内容
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
44+阅读 · 2021年9月27日
专知会员服务
18+阅读 · 2021年9月13日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
35+阅读 · 2021年6月3日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
55+阅读 · 2021年3月3日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
微信扫码咨询专知VIP会员