We propose Latent-Shift -- an efficient text-to-video generation method based on a pretrained text-to-image generation model that consists of an autoencoder and a U-Net diffusion model. Learning a video diffusion model in the latent space is much more efficient than in the pixel space. The latter is often limited to first generating a low-resolution video followed by a sequence of frame interpolation and super-resolution models, which makes the entire pipeline very complex and computationally expensive. To extend a U-Net from image generation to video generation, prior work proposes to add additional modules like 1D temporal convolution and/or temporal attention layers. In contrast, we propose a parameter-free temporal shift module that can leverage the spatial U-Net as is for video generation. We achieve this by shifting two portions of the feature map channels forward and backward along the temporal dimension. The shifted features of the current frame thus receive the features from the previous and the subsequent frames, enabling motion learning without additional parameters. We show that Latent-Shift achieves comparable or better results while being significantly more efficient. Moreover, Latent-Shift can generate images despite being finetuned for T2V generation.


翻译:我们提出了 Latent-Shift 方法--一种基于预训练的文本-图像生成模型的高效文本-视频生成方法,该模型包括自编码器和 U-Net 扩散模型。在潜在空间中学习视频扩散模型比在像素空间中学习更加高效。后者通常限于首先生成低分辨率视频,然后是一系列的帧插值和超分辨率模型,这使得整个管道非常复杂和计算量大。为了将 U-Net 从图像生成扩展到视频生成,先前的工作提出了添加额外模块(如一维时间卷积和/或时间注意力层)的方法。相比之下,我们提出了一个不需要额外参数的时间移位模块,用于将空间 U-Net 直接用于视频生成。我们通过将特征图通道的两部分沿时间维度向前和向后移位来实现这一点。当前帧的移位特征因此接收来自前一帧和后一帧的特征,实现了运动学习而无需额外的参数。我们展示了 Latent-Shift 实现了相当或更好的结果,同时更加高效。此外,即使是针对 T2V 生成进行了微调,Latent-Shift 也可以生成图像。

0
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
从多篇论文看扩散模型在文本生成领域的应用
PaperWeekly
0+阅读 · 2022年10月20日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
历史最全GAN网络及其各种变体整理(附论文及代码实现)
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员