This paper presents a unified multimodal pre-trained model called N\"UWA that can generate new or manipulate existing visual data (i.e., images and videos) for various visual synthesis tasks. To cover language, image, and video at the same time for different scenarios, a 3D transformer encoder-decoder framework is designed, which can not only deal with videos as 3D data but also adapt to texts and images as 1D and 2D data, respectively. A 3D Nearby Attention (3DNA) mechanism is also proposed to consider the nature of the visual data and reduce the computational complexity. We evaluate N\"UWA on 8 downstream tasks. Compared to several strong baselines, N\"UWA achieves state-of-the-art results on text-to-image generation, text-to-video generation, video prediction, etc. Furthermore, it also shows surprisingly good zero-shot capabilities on text-guided image and video manipulation tasks. Project repo is https://github.com/microsoft/NUWA.


翻译:本文介绍了一个名为N\"UWA(UWA)的统一多式联运预培训模式,该模式可以为各种视觉合成任务生成新的或操纵现有视觉数据(即图像和视频)。为了同时覆盖语言、图像和视频,设计了一个用于不同情景的3D变压器编码器-解码器框架,不仅可以将视频分别作为3D数据处理,还可以将文本和图像作为1D和2D数据加以调整。还提议了一个3D近距离注意(3DNA)机制,以考虑视觉数据的性质并减少计算的复杂性。我们还评估了N\“UWA”的8个下游任务。与几个强有力的基线相比,N\“UWA”在文本到图像生成、文本到视频生成、视频预测等方面实现了最新的最新成果。此外,它还显示了文本指导图像和视频操纵任务方面令人惊讶的零射能力。项目雷波是 https://github.com/microft/NUWA。

0
下载
关闭预览

相关内容

ICLR 2022接受论文列表出炉!1095 篇论文都在这了!
专知会员服务
76+阅读 · 2022年1月30日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
39+阅读 · 2021年11月11日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Top
微信扫码咨询专知VIP会员