Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely been explored for video completion. Since there could be different outcomes from the hints of just a few frames, a system that can follow natural language to perform video completion may significantly improve controllability. Inspired by this, we introduce a novel task, text-guided video completion (TVC), which requests the model to generate a video from partial frames guided by an instruction. We then propose Multimodal Masked Video Generation (MMVG) to address this TVC task. During training, MMVG discretizes the video frames into visual tokens and masks most of them to perform video completion from any time point. At inference time, a single MMVG model can address all 3 cases of TVC, including video prediction, rewind, and infilling, by applying corresponding masking conditions. We evaluate MMVG in various video scenarios, including egocentric, animation, and gaming. Extensive experimental results indicate that MMVG is effective in generating high-quality visual appearances with text guidance for TVC.


翻译:给定前几帧静态图像生成视频具有挑战性,因为它需要预测具有时间一致性的合理的未来帧。除了视频预测之外,从最后一帧到头部或从头部到尾部的重放和补全也是至关重要的,但这些方面很少被探索。由于基于仅几个帧的提示可能会有不同的结果,因此能够按照自然语言执行视频完成的系统可以显著提高可控性。受此启发,我们引入了一项新的任务,即文本引导的视频完成(TVC),其要求模型以指令为指导从部分帧生成视频。然后,我们提出了多模态掩蔽视频生成(MMVG)来解决这个TVC任务。在训练期间,MMVG将视频帧离散为视觉标记,并屏蔽大多数标记来执行来自任何时间点的视频完成。在推理时,单个MMVG模型可以通过应用相应的掩蔽条件来解决TVC的所有3种情况,包括视频预测,重放和补全。我们在各种视频场景中评估了MMVG,包括自我中心、动画和游戏。广泛的实验结果表明,MMVG在文本引导下为TVC生成高质量的视觉外观是有效的。

0
下载
关闭预览

相关内容

视觉计算机(TVC)期刊发布关于捕捉,识别,建模,分析和生成形状和图像的所有研究领域的文章。它包括图像理解,用于图形的机器学习和3D制作。还覆盖以下主题:3D重建、电脑动画、计算结构、计算几何、计算摄影计算机图形学的计算机视觉、图形数据压缩、几何造型、几何加工、人机交互和计算机图形学、人体建模、图像分析、基于图像的渲染、图像处理、图形机器学习、医学影像、模式识别、基于物理的建模、照明和渲染方法 、 机器人与视觉、显着方法、科学可视化、形状和表面建模、形状分析和图像检索、形状匹配、基于草图的建模、实体建模、程式化的渲染、贴图、虚拟和增强现实、视觉分析、体积渲染。 官网地址:http://dblp.uni-trier.de/db/journals/vc/
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
19+阅读 · 2020年12月23日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员