Conditional image synthesis aims to create an image according to some multi-modal guidance in the forms of textual descriptions, reference images, and image blocks to preserve, as well as their combinations. In this paper, instead of investigating these control signals separately, we propose a new two-stage architecture, UFC-BERT, to unify any number of multi-modal controls. In UFC-BERT, both the diverse control signals and the synthesized image are uniformly represented as a sequence of discrete tokens to be processed by Transformer. Different from existing two-stage autoregressive approaches such as DALL-E and VQGAN, UFC-BERT adopts non-autoregressive generation (NAR) at the second stage to enhance the holistic consistency of the synthesized image, to support preserving specified image blocks, and to improve the synthesis speed. Further, we design a progressive algorithm that iteratively improves the non-autoregressively generated image, with the help of two estimators developed for evaluating the compliance with the controls and evaluating the fidelity of the synthesized image, respectively. Extensive experiments on a newly collected large-scale clothing dataset M2C-Fashion and a facial dataset Multi-Modal CelebA-HQ verify that UFC-BERT can synthesize high-fidelity images that comply with flexible multi-modal controls.


翻译:有条件的图像合成旨在根据文本描述、参考图像和图像块等形式的多模式指导以及组合等形式的图像保存。 在本文中,我们不分别调查这些控制信号,而是提出一个新的两阶段结构,即UFC-BERT,以统一任何数量的多模式控制。在UFC-BERT中,各种控制信号和合成图像都统一代表为由变异器处理的离散象征物序列。不同于DALL-E和VQGAN等现有的两阶段自动递增方法,UFC-BERT在第二阶段采用非侵略性生成(NAR),以提高合成图像的整体一致性,支持保存特定图像块,并改进合成速度。此外,我们设计了一种渐进式算法,以迭代方式改进不向下生成的图像,由两位灵活估计者帮助评估对综合图像的遵守情况并评估其准确性,分别是DALL-E-E和VQGGAN, UF-BERT在第二阶段采用非侵略性生成的生成(NAR)生成(NAR),以提高整体图像整体一致性的图像整体一致性,用于新收集高比例的多级的多级的图像数据分析系统,可以对高等级数据系统。

0
下载
关闭预览

相关内容

【AAAI2021】双级协作变换器Transformer图像描述生成
专知会员服务
26+阅读 · 2021年1月26日
最新《生成式对抗网络》简介,25页ppt
专知会员服务
168+阅读 · 2020年6月28日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【课程推荐】普林斯顿陈丹琦COS 484: 自然语言处理课程
专知会员服务
82+阅读 · 2019年12月11日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2020年7月16日
Pluralistic Image Completion
Arxiv
8+阅读 · 2019年3月11日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员