【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

2019 年 4 月 10 日 GAN生成式对抗网络

来源：人工智能前沿讲习

生成对抗网络（GAN）是属于一种强有力的深度生成模型。GAN 的主要思想是训练两个神经网络：一个是学习如何合成数据（如图像）的生成器（ generator），另一个是学习如何区分真实数据与生成器合成数据的判别器（discriminator）。这类方法已经成功应用于高保真自然图像合成、提升模型图像压缩、数据增强等方面。

图注：在ImageNet上训练时，生成样本的演变过程。生成网络是根据类别来生成的（如“灰猫头鹰”或“金毛猎犬”）。

对于自然图像合成，条件GAN（Conditional Generative Adversarial Nets）能实现最好的结果。与无条件 GAN 不同，条件 GAN 在训练期间会使用标签（如汽车、狗等）。虽然这使得该任务更容易并且有明显的效果提升，但是这种方法需要大量的标记数据，因此在实践中很少可用。

在《使用更少标签生成高保真图像》（High-Fidelity Image Generation With Fewer Labels）这篇论文中，研究人员提出了一种新方法来减少条件GAN训练时所需的标记数据量。 结合 GAN 的最新进展，他们将高保真自然图像合成技术与最先进的技术相结合，使所需的标签数量减少了 10 倍。

论文传送门：https://arxiv.org/abs/1903.02271

基于这项研究，研究人员还在 Compare GAN 库中发布了一个重大更新，其中 Compare GAN 库是一个包含训练和评估 GAN 所有组件的工具库。

使用半监督和自监督进行提升

在条件 GAN 中，生成器和判别器通常都是以类标签为条件。在这项工作中，我们提出用推断的标签去替代手工注释的标签。为了使大型数据集中大多数未标记数据被推断出来的标签质量更高，我们采取两步法：

首先，我们仅使用数据集未标记的部分来学习特征表示。为了学习特征表示，我们将最近的方法都用在了自监督上，也就是当深度卷积神经网络的任务是预测旋转角度时，我们会对未标记图像的进行随机旋转。背后的想法是模型需要能够识别主要的目标及形状才能在此任务中取得成功。

图注：这张未标记图像被随机旋转，而网络的任务则是预测旋转角度。成功的模型需要捕获具有语义的图像特征，而这样的特征也可以将其用于其他视觉任务。

然后，我们将训练好的网络一个中间层的激活模式视为输入的新特征表示，并使用原始数据集的标记部分去训练一个分类器来识别该输入的标签。由于网络经过预训练可以从数据（在旋转预测任务上）中提取出具有语义信息的特征，因此训练分类器比从头开始训练整个网络会更快。最后，我们使用此分类来器标记没有标签的数据。

为了进一步提高模型质量和训练的稳定性，我们会采用之前介绍的辅助损失以加强判别器网络学习有意义的特征表示，这些特征表示在训练期间不会被遗忘。这两项改进与大规模训练相结合，为以 FID 为度量方式的 ImageNet 综合性任务带来了最先进的条件 GAN。

论文传送门：https://arxiv.org/abs/1811.11212

图注：给定一个潜在向量，生成器网络就能产生一张图像。在每行中，最左侧和最右侧图像编码之间的线性插值导致了图像空间中的语义插值。

Compare GAN：一个用于训练和评估GAN的库

对 GAN 的前沿研究在很大程度上依赖于经过精心设计和良好测试的代码库，因为即使复现其他人的结果和技术也需要花费巨大努力。为了促进开放科学并让研究者能从最近的新方法中获益，我们正在发布 Compare GAN 库的重大更新。该库包括现有 GAN 中常用的损失函数，正则化和规范化模式，神经架构和量化指标等等，现在支持：