Transformers已经成功地完成了许多自然语言处理任务。然而,由于计算复杂度高和缺乏自然标记化,将Transformers应用于视频领域的任务,如长期视频生成和场景理解仍然是难以实现的。在本文中,我们提出了以对象为中心的视频转换器(OCVT),它利用以对象为中心的方法将场景分解成适合于生成视频转换器使用的令牌。通过将视频分解为对象,我们的完全无监督模型能够学习场景中多个交互对象的复杂时空动态,并生成视频的未来帧。与基于像素的模型相比,我们的模型的内存效率更高,因此能够使用单个48GB GPU训练70帧长度的视频。我们将我们的模型与以前基于RNN的方法以及其他可能的视频Transformer基线进行了比较。我们证明OCVT在生成未来帧时比基线表现得更好。OCVT还为视频推理开发了有用的表示,在CATER任务上实现了最先进的性能。
https://www.zhuanzhi.ai/paper/d0e61883d921b542a2359f2276300783