【深度】Ian Goodfellow 强推：GAN 进展跟踪 10 大论文（附下载）

2018 年 3 月 7 日 GAN生成式对抗网络

来源：新智元

【导读】生成对抗网络GAN的提出者Ian Goodfellow在推特上推荐了10篇GAN论文，是跟踪GAN进展，了解最新技术不容错过的。本文带来整理和介绍，希望能给读者带来启发。

1. Progressive Growing of GANs for Improved Quality, Stability, and Variation

Tero Karras, Timo Aila, Samuli Laine & Jaakko Lehtinen (NVIDIA and Aalto University)

来自NVIDIA Research的GAN论文，提出以一种渐进增大（progressive growing）的方式训练GAN，通过使用逐渐增大的 GAN 网络（称为PG-GAN）和精心处理的 CelebA-HQ 数据集，实现了效果令人惊叹的生成图像。作者表示，这种方式不仅稳定了训练，GAN生成的图像也是迄今为止质量最好的。

它的关键想法是渐进地增大生成器和鉴别器：从低分辨率开始，随着训练的进展，添加新的层对越来越精细的细节进行建模。“Progressive Growing” 指的是先训练4x4的网络，然后训练8x8，不断增大，最终达到1024x1024。这既加快了训练速度，又大大稳定了训练速度，并且生成的图像质量非常高，例如1024×1024的CelebA图像。

数据集和代码都已开源。

论文：https://arxiv.org/pdf/1710.10196.pdf

源代码：https://github.com/tkarras/progressive_growing_of_gans

新智元报道：迄今最真实的 GAN：英伟达渐进增大方式训练 GAN，生成前所未有高清图像

2. Spectral Normalization for Generative Adversarial Networks

Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida (2018)

来自日本研究者的ICLR 2018论文，提出了一种叫做 “谱归一化”（spectral normalization）的新的权重归一化（weight normalization）技术，来稳定判别器的训练。这种新归一化技术计算轻巧，易于并入现有的部署当中。我们在 CIFAR10，STL-10 和 ILSVRC2012 数据集上测试了谱归一化的功效，通过实验证实了相对于那些使用此前提出的训练稳定技术训练的 GAN，谱归一化 GAN（SN-GAN）能够生成质量相同乃至更好的图像。

简单说，论文提出了一种新的权重归一化方法，用于稳定判别器的训练。作者在论文中写道，他们的归一化方法需要调整的超参数只要一个，就是 Lipschitz 常数，而且即使不调整这个超参数，也能获得满意的性能。此外，算法实现简单，额外的计算成本很小。

论文地址：https://openreview.net/pdf?id=B1QRgziT-

新智元报道：一个 GAN 生成 ImageNet 全部 1000 类物体

3. cGANs with Projection Discriminator

Takeru Miyato, Masanori Koyama (2018)

这篇论文提出了一种新的、基于投影的方法，将有条件的信息（conditional information）纳入GAN的判别器。这种方法与当前的大多数条件GAN（cGAN）的框架不同，它是通过将（嵌入的）条件向量连接到特征向量来使用条件信息。通过这样的修改，研究者在ImageNet的class conditional图像生成质量比当前最优结果显著提高，并且这是只通过一对discriminator和generator实现的。该研究还将应用扩展到超分辨率，并成功地生成了高质量的超分辨率图像。代码、生成的图像和预训练的模型可用。

论文：https://openreview.net/pdf?id=ByS1VpgRZ

代码：https://github.com/pfnet-research/sngan_projection

4. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

T-C Wang, M-Y Liu, J-Y Zhu [NVIDIA Corporation & UC Berkeley] (2017)

来自NVIDIA和UC Berkeley的研究，Pix2pixHD 利用条件 GAN 进行高清图像合成和处理（分辨率 2048x1024），输入语义标注图，系统能够生成逼真的现实世界图像，例如街景、人脸。

研究者提出一种多尺度的生成器和判别器架构，结合新的对抗学习目标函数。实验结果表明，条件 GAN 能够合成高分辨率、照片级逼真的图像，不需要任何手工损失或预训练的网络。

不仅如此，作者还提出了一种方法，让用户能够交互式地编辑物体的外观，大大丰富了生成的数据类型。例如，在下面的视频中，你可以发现用户能够选择更换街景中车辆的颜色和型号，给街景图增加一些树木，或者改变街道类型（例如将水泥路变成十字路）。类似地，利用语义标注图合成人脸时，给定语义标注的人脸图像，你可以选择组合人的五官，调整大小肤色，添加胡子等。

作者在文中指出，他们的方法可以扩展到其他领域，尤其是医疗图像这样缺乏预训练网络的领域。

项目和论文：https://tcwang0509.github.io/pix2pixHD/

5. Are GANs Created Equal? A Large-Scale Study

M Lucic, K Kurach, M Michalski, S Gelly, O Bousquet [Google Brain] (2017)

这是来自谷歌大脑团队的研究，他们对 MM GAN、NS GAN、WGAN、WGAN GP、LS GAN、DRAGAN、BEGAN 等近期出现的优秀 GAN 模型进行了客观的性能比较，发现这些模型并没有像它们声称的那样优于原始 GAN。

研究者称，他们对 state-of-the-art 的一些 GAN 模型进行了公平、全面的比较，证明在有足够高的计算预算的情况下，几乎所有这些 GAN 都可以达到相似的 FID 值。

他们的实验证据（重现这些实验的计算预算大约是 60K P100 GPU 小时）证明为了比较 GAN 的性能，有必要报告其结果分布的一个 summary，而不是只报告最好的结果，因为优化过程存在随机性和模型不稳定性。

Ian Goodfellow 评论此工作：ML 的研究人员，审稿人和有关 ML 的新闻报道需要对结果的统计稳健性和超参数的效果进行更认真的研究。这项研究表明，过去一年多的很多论文只是观察抽样误差，而不是真正的改进。

论文：https://arxiv.org/pdf/1711.10337.pdf

新智元报道：【谷歌大脑团队 GAN 生态权威报告】6 种优化 GAN 模型对比，最优秀的仍是原始版本

6. Improved Training of Wasserstein GANs

Gulrajani, F Ahmed, M Arjovsky, V Dumoulin, A Courville

生成对抗网络（GANs）是一个功能十分强大的模型，但现阶段仍然受到训练不稳定的问题干扰。最近新提出的 Wasserstein 对抗网络(WGAN)在对GANs的训练的稳定性方面取得了进展，但有时仍然只能产生低质量的样本，或者出现无法收敛的问题。这篇文章中提出的方法比标准的WGAN性能优越，在几乎不需要超参数调优的情况下，可以保证对各种结构的GAN进行稳定的训练，其中包括101层的ResNets模型和基于离散数据的语言模型。

文章的主要贡献如下：

保证对各种各样的GAN结构进行稳定的训练
提出了一种基于梯度惩罚的生成对抗网络（(WGAN-GP），同样可以保证稳定的训练
对各种GAN模型结构训练的稳定性进行了改善，并展示了权重的剪枝问题对结果的改善情况，同时论文中也展示了对高质量图像的生成以及对一个无离散采样的字符级的语言模型的性能改进。

实验结果对比如表1所示：

表1

论文：https://arxiv.org/pdf/1704.00028.pdf

7. StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks

Han Zhang et. al.

尽管生成的敌对网络(GANs)在各种任务中已经取得了显著的成功，但它们仍然在生成高质量图像方面面临挑战。本文提出了一种堆叠的生成对抗网络(StackGAN)，目标是生成高分辨率的现实图像。

首先，本文提出了一个包含两阶段的生成对抗网络架构stack GAN-v1用于文本-图像合成。根据给定的文字描述，GAN在第一阶段描绘出了物体的原始形状和颜色，产生了低分辨率的图像。在第二阶段，GAN将第一阶段的低分辨率图像和文字描述作为输入，并以逼真的细节生成高分辨率的图像。

其次，提出了一种多阶段的生成对抗性网络架构，即StackGAN-v2，用于有条件和无条件的生成任务。提出的StackGAN-v2由多个树状结构的生成器和判别器组成。树的不同分支可以生成对应于同一场景的多个尺寸的图像。通过对多个分布的联合逼近，StackGAN-v2显示了比StackGAN -v1更稳定的训练结果。大量的实验证明，在生成高清图像时，文章提出的堆叠的生成对抗网络比其他现阶段表现优异的算法更具优势。文章中提出的模型如图1所示：

论文：https://arxiv.org/pdf/1710.10916.pdf

8. Privacy-preserving generative deep neural networks support clinical data sharingB K. Beaulieu-Jones, Z S Wu, C Williams, C S. Greene [University of Pennsylvania] (2017)

尽管人们普遍认识到，数据共享促进了科学的快速发展，但保护参与者隐私的合理需求阻碍了医学的实践。通过生成患者的模拟数据，作为训练数据来对深度神经网络进行训练。以SPRINT实验为例，实验中展示了通过使用模拟数据对机器学习模型进行训练可以泛化得到原始数据。通过结合不同用户的隐私，提出方法可以强有力地保证模型数据可以对应到每一编制数据集的调查人员。

对于数据集构建完成的研究人员，他们可以用论文中提出的方法，为进行相关研究的科研人员提供自用访问的公共版本数据集。即使在需要考虑隐私的条件下，生成的数据也可以与相关代码一起发布，方便其他研究人员进行算法复现。通过解决数据共享的挑战，深度神经网络可以促进对临床数据集进行严格的可重复调查。

论文：https://www.biorxiv.org/content/early/2017/07/05/159756

9. Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks

L Mescheder, S Nowozin, A Geiger [MPI Tubingen & Microsoft Research Cambridge] (2017)

变分型自动编码器(VAEs)是一种具有表达能力的潜在变量模型，可用于从训练数据中学习复杂的概率分布。然而，结果模型的质量主要依赖于推理模型的表达能力。文中引入了对抗型的变分贝叶斯（AVB），这是一种通过使用任意表达的推断模型来训练可变汽车编码的技术。文中通过引入一个辅助的判别网络来实现这一目标，这个网络允许将最大似然问题重新定义为双方博弈问题，因此在VAEs 和生成对抗网络之间建立了一个规则连接。

结果表明，在非参数的限制条件下，提出方法可以获得生成模型参数的最大似然估计，并且通过观察可以得到隐变量的准确的后验分布。不同于VAEs和GANs相结合的竞争方法，论文中提出的方法有一个明确的理论依据。而且算法中保留了标准变分自动编码器的大多数优点，并更容易实现。算法模型与标准AVE的对比图如图下所示：

在二值化的MNIST数据集上的结果如表2所示，分别对应的是AVB和基于VAEs的各种改善算法。通过对表中结果分析可以发现，提出算法在二值化的MNIST数据集上可以获得最优的对数似然估计。在表的下半段的对数似然估计不是通过AIS获得的，而是通过重要性抽样的方法。

表2

论文：https://arxiv.org/pdf/1701.04722.pdf

10. Gradient descent GAN optimization is locally stable

V Nagarajan, J. Z Kolter [CMU] (2017)

尽管生成对抗网络（GANs）的应用日益突出，但是GANs的优化仍然是一个棘手的问题。这篇文章分析了基于梯度下降形式的GANs的优化，例如在自然环境中，生成器和判别式参数同时使用小梯度的下降。文中证明了，即使是简单的参数化问题，GAN的优化也不与凹凸优化问题对应。在合适的条件下，对于传统的GAN算法的规则，优化过程的平衡点仍然是局部渐进平稳的。

另一方面，论文中也证明了最近提出的Wasserstein GAN在接近平衡点的时具有非收敛的限制周期。受到这一稳定性分析的启发，文中提出了一种新的正则化方法，用于对GAN的梯度下降的更新，既能保证WGAN和传统GAN的局部稳定性，又能在加速收敛和处理模型衰竭方面具有实际的应用前景。

对比结果如下图所示，左边为使用了梯度正则化方法的结果图，右边为传统的DCGAN结构获得的结果图，分别对应的是经过1，4，20次迭代后的结果：