Synthesizing high-quality realistic images from text descriptions is a challenging task. Almost all existing text-to-image Generative Adversarial Networks employ stacked architecture as the backbone. They utilize cross-modal attention mechanisms to fuse text and image features, and introduce extra networks to ensure text-image semantic consistency. In this work, we propose a much simpler, but more effective text-to-image model than previous works. Corresponding to the above three limitations, we propose: 1) a novel one-stage text-to-image backbone which is able to synthesize high-quality images directly by one pair of generator and discriminator, 2) a novel fusion module called deep text-image fusion block which deepens the text-image fusion process in generator, 3) a novel target-aware discriminator composed of matching-aware gradient penalty and one-way output which promotes the generator to synthesize more realistic and text-image semantic consistent images without introducing extra networks. Compared with existing text-to-image models, our proposed method (i.e., DF-GAN) is simpler but more efficient to synthesize realistic and text-matching images and achieves better performance. Extensive experiments on both Caltech-UCSD Birds 200 and COCO datasets demonstrate the superiority of the proposed model in comparison to state-of-the-art models.


翻译:从文本描述中合成高质量现实图像是一项艰巨的任务。几乎所有现有文本到图像的模拟生成反反转网络都使用堆叠结构作为主干。它们使用引信文本和图像特性的交叉式关注机制,并引入额外的网络以确保文本图像的语义一致性。在这项工作中,我们提出了一个比以往工作更简单、但更有效的文本到图像模型模型。与上述三个限制相对应,我们提议:(1) 一个新的一至级文本到图像主干,能够直接用一对发电机和导师合成高质量图像;(2) 一个叫深文本图像聚合块的新型聚合模块,它加深了生成器中的文本图像聚合过程;(3) 一个新颖的目标识别歧视器,它由匹配的梯度罚款和单向输出组成,它能促进生成者合成更现实和文本图像模型一致,而不会引入额外的网络。 与现有的文本到现有的图像模拟模型(即,DF-GAN-A模型)相比,一个叫做深度文本图像聚合模块,它能更简单,但能更高效地展示CSDA-C-C-C-C-C-C-C-C-C-C-C-C-SAL-SAR-SAR-SAR-SAR-SAR-SAR-SAR-SD-SD-SB-SB-SAR-C-C-C-C-C-C-C-C-C-C-SAR-SAR-S-S-S-S-C-C-S-S-S-S-S-S-SAR-SB-SL-SD-SD-S-SD-SD-SD-S-S-S-S-S-S-SD-I-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-SD-SD-SD-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-

0
下载
关闭预览

相关内容

生成对抗网络 (Generative Adversarial Network, GAN) 是一类神经网络,通过轮流训练判别器 (Discriminator) 和生成器 (Generator),令其相互对抗,来从复杂概率分布中采样,例如生成图片、文字、语音等。GAN 最初由 Ian Goodfellow 提出,原论文见 Generative Adversarial Networks

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
205+阅读 · 2019年9月30日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ICCV17 :12为顶级大牛教你学生成对抗网络(GAN)!
全球人工智能
8+阅读 · 2017年11月26日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
VIP会员
相关VIP内容
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
205+阅读 · 2019年9月30日
相关资讯
Top
微信扫码咨询专知VIP会员