This paper presents a unified multimodal pre-trained model called N\"UWA that can generate new or manipulate existing visual data (i.e., images and videos) for various visual synthesis tasks. To cover language, image, and video at the same time for different scenarios, a 3D transformer encoder-decoder framework is designed, which can not only deal with videos as 3D data but also adapt to texts and images as 1D and 2D data, respectively. A 3D Nearby Attention (3DNA) mechanism is also proposed to consider the nature of the visual data and reduce the computational complexity. We evaluate N\"UWA on 8 downstream tasks. Compared to several strong baselines, N\"UWA achieves state-of-the-art results on text-to-image generation, text-to-video generation, video prediction, etc. Furthermore, it also shows surprisingly good zero-shot capabilities on text-guided image and video manipulation tasks. Project repo is https://github.com/microsoft/NUWA.


翻译:本文介绍了一个名为N\"UWA(UWA)的统一多式联运预培训模式,该模式可以为各种视觉合成任务生成新的或操纵现有视觉数据(即图像和视频)。为了同时覆盖语言、图像和视频,设计了一个用于不同情景的3D变压器编码器-解码器框架,不仅可以将视频分别作为3D数据处理,还可以将文本和图像作为1D和2D数据加以调整。还提议了一个3D近距离注意(3DNA)机制,以考虑视觉数据的性质并减少计算的复杂性。我们还评估了N\“UWA”的8个下游任务。与几个强有力的基线相比,N\“UWA”在文本到图像生成、文本到视频生成、视频预测等方面实现了最新的最新成果。此外,它还显示了文本指导图像和视频操纵任务方面令人惊讶的零射能力。项目雷波是 https://github.com/microft/NUWA。

0
下载
关闭预览

相关内容

ICLR 2022接受论文列表出炉!1095 篇论文都在这了!
专知会员服务
75+阅读 · 2022年1月30日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2020年6月8日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
3+阅读 · 2017年11月21日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Top
微信扫码咨询专知VIP会员