生成对抗网络的研究进展与趋势

2018 年 11 月 14 日 中国计算机学会

CCF于2018年10月出版了新一期《中国计算机科学技术发展报告》，对AI与系统软件的深度融合等10个方向的研究进展做了详细的介绍和讨论。我们将分期分享报告中的精彩内容。请加入CCF，登录CCF数字图书馆下载和浏览。

1 引言

1.1 生成对抗网络的产生背景

生成对抗网络（Generative Adversarial Nets，GAN）[1]是生成式模型中的一种，生成式(Generative)模型是机器学习方法中的一大类，与之相对应的是判别式(Discriminative)模型。假设x是观测特征，y是对应的类标，判别式模型的目标是对p(y|x)建模，这样的算法学习的是从输入特征到类标之间的映射关系。与判别式模型不同，生成式模型对p(x|y)建模，即给定了类别以后，建模对应的特征分布。在生成对抗网络之前，深度生成式模型取得的影响力相较于判别式模型要小的很多，主要原因是在通过最大似然估计等方法学习生成模型的过程中，在近似很多棘手的概率计算方面存在很多的困难，此外，在生成上下文场景中，很难利用上分段线性单元的优势[1][2][3][4]。由于现有的深度生成式模型的上述一些缺陷，Goodfellow等人提出了生成对抗网络。

在生成对抗网络中，包括一个生成器以及一个判别器，生成器负责捕捉真实样本的数据分布，可以生成新的样本，判别器通常是一个二分类器，作用是判别输入给判别器的样本是生成样本还是真实样本。整个生成对抗网络的优化过程是一个极小极大博弈问题，训练过程中，对判别器的训练目标是最小化判别器的分类损失，生成器的优化与判别器的优化是一个极小极大的博弈问题，当达到纳什均衡的时候，生成器可以捕捉到数据样本的分布，从而实现样本生成。在Goodfellow等人2014年的论文[1]中，他们证明了上述的博弈问题等价于优化数据分布与生成模型分布的Jensen-Shannon散度。

由于生成对抗网络一系列良好的特性，自生成对抗网络产生后就被应用到了各个应用领域，其中最受关注的当属计算机视觉领域，其应用到的领域包括图像生成，图像分割，风格迁移等，此外，在其它的一些领域，如信息检索、文本生成等也受到了非常大的关注。迅速成为了近几年来最受关注的生成式模型，涌现了一系列的研究工作。

本文将对近几年的生成对抗网络工作进行综述，主要从以下两个方法进行详细的介绍。第一个方面是生成对抗网络的理论研究，其中将重点介绍生成对抗网络在训练方法理论上的进展以及生成多样性上的进展。第二个方面介绍生成对抗网络在各个应用领域中的进展，尽可能全面的围绕目前生成对抗网络的应用领域介绍各个生成对抗网络的工作，侧重于分析各个工作的区别以及适用范围。

1.2 与其它生成模型的差别

生成对抗网络与自编码器(Auto-encoder，AE)，自编码器是一种利用反向回传的无监督神经网络算法，其主要原理是通过神经网络输出与输入数据相似的输出数据，因此神经网络的作用等价于一个恒等函数。尽管恒等函数的功能很简单，但在自编码网络中，通常会限制隐变量的数目大小，例如从一个较大数目的输入首先编码为一个较少数目的隐变量，再通过一个较少数目的隐变量解码为一个与输入数据相似的输出。由于隐变量通常维度小于输入，因此自编码器通常可以用于特征降维。在自编码器中设置较小的隐变量参数包含的基础假设是，假设特征与特征之间存在相关性，则算法可以从这里面找到这些相关性，从而通过更小维度的隐变量对数据进行表示。

此外，为了解决复杂的概率推断问题，Kingma等人[8]提出了一种随机梯度变分贝叶斯的方法，当将该模型应用到神经网络中，就得到了变分自编码器。变分自编码器的主要目的是对隐变量后验进行推断，采用的做法是首先建立一个变分的下界表示，该下界可以通过随机梯度方法直接优化，然后，作者给出了在独立同分布数据上，后验估计可以通过所提出的下界估计来拟合一个近似推理模型。

自编码器与生成对抗网络的一个重要区别在于自编码器的损失函数通常使用一个简单的度量，例如欧式距离，导致自编码器生成的图像通常比较模糊，而生成对抗网络的度量函数更加适合高维数据。

生成对抗网络与变分自编码器的不同在于，变分自编码器有一个变分下界，与真实的样本分布之间存在偏差，生成对抗网络由于没有变分下界，因此假设训练数据足够好，它可以更好的拟合数据的分布。

像素循环神经网络模型(Pixel Recurrent Neural Networks, PixelRNN)模型[9]是由Van Den Oord等人于2016年提出的一种生成式模型，该模型的主要原理是利用了循环神经网络一个像素一个像素的进行样本生成，相比于PixelRNN模型，生成对抗网络一次产生一个完整的样本，PixelRNN模型则是一个像素一个像素的去产生样本，因此，生成对抗网络的时间性能更优。

2 国内研究进展

2.1 生成对抗网络在国内的理论研究进展

相较于生成对抗网络的应用而言，国内在生成对抗网络的理论研究方面工作不是很多。

在GAN的训练方面，香港城市大学提出了一种最小二乘损失函数[93]来解决由于原始GAN的损失函数导致的梯度消失问题。在原始GAN中，判别器采用Sigmoid函数，而该函数非常容易饱和从而导致梯度消失。在文献[93]提出的最小二乘生成对抗网络(Least Squares Generative Adversarial Network, LSGAN)中，判别器采用了非饱和的L2损失函数，可以为网络提供持续稳定的梯度，从而使得训练过程更加稳定，如图3.1所示。

图2.1 原始GAN和LSGAN的对分布的学习能力对比，LSGAN更能学习到数据的真实分布，而原始GAN容易产生模式坍塌的问题而很难学习到全局真实分布。图片引用自参考文献[72]

在GAN的结构方面，清华大学提出了一种改进的结构生成对抗网络(Structured Generative Adversarial Network, SGAN) [94]，该网络具有可控性好和解耦性好等优点，且能够通过生成高质量的有标签数据来辅助半监督学习。SCAN的主要思想是将输入向量分为类别向量和噪声向量，分别编码类别信息和其他类别无关的信息。通过将生成的图像嵌入回原始的类别向量和噪声向量，达到解耦的目的。同时SCAN使用对抗损失来维持生成图像的真实性以及类别与图像，噪声向量与图像的一一对应关系。此外清华大学还在另一个工作中提出了三元生成对抗网络(Triple Generative Adversarial Nets, Triple-GAN)[95]，Triple-GAN为解决一般的GAN中存在的两个问题（即生成器和判别器可能不能同时达到最优和生成器无法控制生成图像的语义信息），在传统生成器和判别器的对抗框架中增加了一个分类器。生成器建模给定标签情况下图像的条件概率分布，分类器建模给定图像情况下标签的条件概率分布。由真实数据、生成器和分类器可以得到三种关于图像和标签的联合概率分布，判别器则专注于判定从三种分布中采样的图像-标签对的真假。优化的最终目标是使三种联合概率分布趋于一致，此外论文中还引入了标准监督损失来保证这种一致性。Triple-GAN不仅在当时的生成模型中达到了最优的分类结果，而且能够解耦类别和风格信息以及在类别限定的隐空间插值中实现平滑的转换。另外，上海交通大学针对文献[13]中的方法存在的问题，提出一种改进的激活最大化生成对抗网络(Activation Maximization Generative Adversarial Network, AMGAN) [96]，性能超过了同类的条件对抗网络LabelGAN[13]和ACGAN[96]。作者通过理论分析得出LabelGAN的判别损失是将生成样本朝着某一个真实类别方向优化，而不是仅仅朝着真样本的方向优化，而LabelGAN的生成器损失却是将生成样本朝着无指定类别的真实样本方向优化，导致生成器和判别器优化方向不够一致。因此作者提出将LabelGAN的生成器损失改为优化朝着某一个真实类别方向优化，由此得到了AMGAN。

在GAN的评价指标方面，前面的上海交通大学在AMGAN的工作中提出了一种新的样本质量度量指标AM Score，这是为了解决常用的评价指标Inception Score过度关注生成多样性而对样本的质量关注不足的问题。

2.2 生成对抗网络在国内的应用进展

国内在生成对抗网络应用的研究上较为活跃。

在图像合成方面，中科大、中科院以及香港中文大学分别提出了条件变分自编码生成对抗网络(Conditional Variational Auto-encoder Generative Adversarial Network, CVAE-GAN) [97]、两路生成对抗网络(Two-Pathway Generative Adversarial Network, TPGAN)[98]和FaceID-GAN[99]，用于身份/类别保持的人脸合成，其中一个重要的步骤就是用深度网络来提取身份/类别特征，从而保证生成图像的身份/类别，图3.2给出了FaceID-GAN的人脸图像生成效果。

图2.2 FaceID-GAN生成结果：可以生成一个人任意角度和表情的图像，同时保持这个人的身份。图片引用自参考文献[99]

在图像的跨域生成方面，中科院在无监督域适应上提出了双重对抗生成网络(Duplex Generative Adversarial Network, DupGAN) [100]，通过双路判别器来学习领域不变的特征，得到了最先进的无监督域适应结果。香港城市大学则针对多域图像生成表现欠佳的问题，提出了正则化条件生成对抗网络(Regularized Conditional GAN, RegCGAN) [101]，通过两个正则项来指导模型学习不同域的语义信息。传统的域适应针对的是源域和目标域类别空间相同的情况，而现实中很多时候目标域的类别只是源域的一部分，中科院针对这个问题提出了选择性对抗网络((Selective Adversarial Network, SAN) [102]，实现了部分域适应，部分域适应问题的示意图如图3.3所示。此外，清华大学专门为真实照片的卡通化提出了CartoonGAN[103]。

图2.3 部分域适应问题，源域类别和目标域类别不相同。图片引用自参考文献[102]

在文本生成方面，如前文2.2.8节已经介绍过，上海交通大学率先提出序列生成对抗网络(Sequence Generative Adversarial Net, SeqGAN) [68]，实现了用GAN进行离散序列生成从无到有的突破。SeqGAN将序列生成问题看成是序列决策问题，将生成器看成是强化学习中的智能体（Agent），使用判别器来提供奖赏，并使用策略梯度来进行参数更新。香港中文大学也使用GAN来进行文本生成，改进了生成句子的自然性和多样性[104]。台湾清华大学则探讨了文本序列的跨域生成[105]。该工作使用两个判别器，一个判定文本来自哪个域，一个判定文本和图像是否匹配，成功实现了无监督的跨域生成。前面提出SeqGAN的上海交通大学团队又提出了针对长文本生成的方法[71]，该模型的判别器会在中间时间步泄露一些提取的特征给生成器，生成器则利用这个额外信息指导序列地生成。

此外，国内还有很多其他关于GAN的应用工作。比如有物体检测[106][107]，行人重识别[108][109]，图像的去噪去遮挡[110][111][112][113][114]，以及信息检索[115][116][117][118][119]等。

3 发展趋势与展望

可以看到，目前国内以及国外，围绕生成对抗网络的理论研究以及应用研究都在快速开展，目前生成对抗网络主要存在的问题包括以下几个方面：1）训练过程不稳定，当然随着WGAN[10]的提出，该问题已经在一定程度上得到了解决，但关于生成样本稳定性的研究在不同的网络结构下同样需要不同的设计，因此这一问题仍值得研究；2）生成样本的量化评价指标，目前的Inception Score[13]尽管可以对生成图像质量进行评价，但仍然无法在生成图像的多个方面都进行准确的评估，好的评价指标仍有待设计；3）生成样本质量的问题，首先目前大部分的生成对抗网络可以生成的图像分辨率有限，这一方面，英伟达提出了一种渐进生成的生成对抗网络结构[120]，但该结构是非条件生成的，因此，在生成图像分辨率方法还有进一步值得研究的空间，此外，目前生成的样本的质量与真实样本仍存在一定差距，如何针对各个应用领域，进一步提升生成样本的质量仍需要研究者们进一步开拓思路，提出更有效的方法。

4 结束语

本文主要从生成对抗网络的产生背景，基础结构以及与其它生成模型的对比出发，虽然介绍了生成对抗网络在理论研究以及应用上的进展，并简单介绍了生成对抗网络的评价指标体系。在第三节给出了国内方面在生成对抗网络上的研究工作。最后对生成对抗网络的后续发展趋势进行了展望。

整体来看，自生成对抗网络于2014年提出以来，生成对抗网络取得了蓬勃的发展，理论研究上产生了使得生成对抗网络训练更稳定的模型，各个应用领域的生成对抗网络研究也层出不穷，生成效果在不断提升。但目前生成对抗网络仍存在一些不足以及缺陷，有赖于研究者们进一步解决。从长远来看，由于生成对抗网络的应用广泛，对生成对抗网络的研究有着非常重要的实际意义以及广阔的前景。

致谢

本报告的整理得到国家自然科学基金委员会大数据重点项目群项目、军民共用重大研究计划“面向大数据的知识表示、推理、在线学习理论及应用研究”(编号：61432008, U1435214)的支持。李涛涛、马明林、侯昊迪同学参加了整理工作，在此一并致谢。

作者简介