论文题目
少镜头视频合成,Few-shot Video-to-Video Synthesis
论文简介
视频到视频合成(vid2vid)旨在将输入的语义视频(如人体姿势视频或分割遮罩视频)转换为输出的真实感视频。虽然最先进的OFVID2VID有了很大的进步,但现有的方法有两个主要的局限性。首先,他们渴望数据。训练需要大量的目标人体或场景图像。其次,学习模型的泛化能力有限。一个pose-to-humanvid2视频模型只能合成训练集中的单个人的姿势。它并不适用于不在训练集中的其他人。为了解决这些局限性,我们提出了一个新的shotvid2vidframework,它通过利用目标测试时间的少量示例图像来学习合成先前未看到的对象或场景的视频。我们的模型通过使用注意机制的novelnetwork权重生成模块来实现这种少量的镜头泛化能力。我们使用多个大规模视频数据集(包括人体舞蹈视频、说话头部视频和街道场景视频)进行了大量的实验验证,并与强基线进行了比较。实验结果验证了所提出的框架在解决现有VID2VID方法的两个局限性方面的有效性。代码可在我们的网站上找到
论文作者
Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, Bryan Catanzaro 来自 NVIDIA(英伟达)公司