Generative Adversarial Networks (GANs) produce impressive results on unconditional image generation when powered with large-scale image datasets. Yet generated images are still easy to spot especially on datasets with high variance (e.g. bedroom, church). In this paper, we propose various improvements to further push the boundaries in image generation. Specifically, we propose a novel dual contrastive loss and show that, with this loss, discriminator learns more generalized and distinguishable representations to incentivize generation. In addition, we revisit attention and extensively experiment with different attention blocks in the generator. We find attention to be still an important module for successful image generation even though it was not used in the recent state-of-the-art models. Lastly, we study different attention architectures in the discriminator, and propose a reference attention mechanism. By combining the strengths of these remedies, we improve the compelling state-of-the-art Fr\'{e}chet Inception Distance (FID) by at least 17.5% on several benchmark datasets. We obtain even more significant improvements on compositional synthetic scenes (up to 47.5% in FID).


翻译:以大型图像数据集发电时,生成的图像生成在无条件图像生成方面产生了令人印象深刻的结果。然而,生成的图像仍然很容易发现,特别是在差异很大的数据集(如卧室、教堂)上。在本文中,我们提出了各种改进建议,以进一步拉动图像生成的界限。具体地说,我们提出了新的双重对比性损失,并表明,随着这种损失,歧视者学会了激励生成的更普遍和可区别的表现形式。此外,我们再次关注并广泛试验了生成器中的不同关注区块。我们发现,即使在最近的最先进的模型中没有使用这些图像生成成功生成的模块,但人们仍然发现这种关注区仍然是一个重要的模块。最后,我们研究了歧视者中的不同关注区结构,并提出了一个参考关注机制。我们将这些补救措施的优点结合起来,使最有说服力的尖端Fr\}} 切切除 Invition距离(FID) 提高若干基准数据集至少17.5%。我们在合成图像合成场上取得了更显著的改进(在FIRFID中达到47.5% )。

1
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
专知会员服务
22+阅读 · 2021年8月23日
专知会员服务
90+阅读 · 2021年6月29日
【CVPR2021】动态度量学习
专知会员服务
40+阅读 · 2021年3月30日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2021年1月7日
Arxiv
5+阅读 · 2020年10月2日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年8月23日
专知会员服务
90+阅读 · 2021年6月29日
【CVPR2021】动态度量学习
专知会员服务
40+阅读 · 2021年3月30日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
32+阅读 · 2020年4月23日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员