OKGAN：线上训练GAN的方法

会员服务 ·

OKGAN：线上训练GAN的方法

2020 年 8 月 23 日 PaperWeekly

©PaperWeekly 原创 · 作者｜尹娟

学校｜北京理工大学博士生

研究方向｜随机过程、复杂网络

论文标题：Online Kernel based Generative Adversarial Networks

论文链接：https://arxiv.org/abs/2006.11432

引言

GAN 从 2014 年被 Goodfellow 提出来之后至今已经 6 年了，并且 GAN 的应用已经遍地开花，比如有图像生成，图像风格迁移，数据增强，生成对抗样本等等。

但是 GAN 训练过程中自身有两个顽疾一直没有很好地被处理掉，一个是模型训练不稳定，另一个是模式塌缩，其中 WGAN，DualGAN，WGAN-GP 都在解决这两个问题中做出过贡献，然而它们都是针对 GAN 的线下训练，该论文是一种线上稳定训练 GAN 的方法。

论文的贡献

本文的贡献可以归纳为如下几点：

首先作者提出了一种基于非参数的鉴别器（它是一种基于核的分类器），可以有效地在线训练，直观感觉基于核的分类器会大大降低模型训练的成本而且训练更稳定，因为参数量较小（比如 SVM 会比神经网络更好训练）。
鉴别器的优化公式是一个凸优化的形式，在基于核的预测器的计算和统计特性方面都有大量的结果。要知道神经网络是一个非凸函数，在优化过程中会遇到陷入局部最优解和梯度消失的问题，但是凸函数就不会遇到这些让人头疼的问题。
核分类器可以选择内核或组合内核目的是在数据表示上增加灵活性。论文中发现不同半径的高斯核的混合在复杂的图像数据集（如 CelebA）中表现最好。

模型介绍

要知道在 GAN 的经典形式中，鉴别器通常被视为一个神经网络分类器，其目的是区分数据是真是假。而该论文所用到鉴别器模型是再生核 Hilbert 空间的函数类的分类器，它跟深层网络相比有许多优点。

学习任务是一个凸问题，它提供了有保证的收敛速度和充分理解的速度。其次，利用边缘理论和 RKHS 范数度量函数大小，有一种有效的方法来衡量从 RKHS 中选择的分类器的泛化能力，从而对其进行适当的正则化，并且它们非常适合快速在线训练。

设是一个抽象的数据空间，它通常是有限维的实向量空间，有一个核是半正定和对称的。对于一组样本，其中是半正定，所以在 Hilbert 空间中有：

则函数的范数为：

假定有一个凸函数，其中是的预测损失函数，是真实的标签，则 OKGAN 的对抗损失函数为：

其中生成的优化目标函数为：

OKGAN 在低维数据（如二维合成数据集）上具有优越的性能。但是如果没有额外的表现能力，它很难生成高质量的图像，而这正是其他 GAN 架构的特点，然而如果通过添加编码器层来弥补的，可以发现编码器能够计算高维数据，如复杂的图像数据集的内核，其中编码器也是一个神经网络，此时 OKGAN 的对抗损失为：

其中生成器和编码器分别对应的目标函数为：

作者探讨了很多核函数，分别有高斯核函数，线性核函数，多项式核函数，有理二次型核函数，混合高斯核函数和混合 RQ 线性核函数，具体形式如下：

实验结果

作者从定量和定性两方面提供了 OKGANs 的实验结果，采用二维合成数据集对模式崩溃进行定量分析，用 MNIST、SVHN 和 CelebA 均用于定性分析，其中评估指标为：

如下表所示，在缓解模式崩溃方面 OKGAN 显示出了最好的性能。与其他 GANs 相比，OKGAN 捕捉所有 2D 合成数据集的所有模式，并且 OKGAN 的反向 KL 散度在这三个数据集中是最低的，这就说明了 OKGAN 能够缓解模式塌缩（即 GAN 能够多样性学习样本数据）。

下图为 OKGAN 和其它 GANs 比较多样性学习的比较，可以看出 OKGAN 学习的分布与原来数据分布是最相似的。

稍微扩展一下，在 DualGAN 中，作者创造性的把 KL 散度和反向 KL 散度综合到一起应用来提高 GAN 的学习多样性的能力，要知道 KL 散步是一个有很大缺陷的度量方法，因为其该度量方法不对成，即 KL (A,B) 不等于 KL (B,A)。所以该论文中多用了一个反向 KL 散度来评估 OKGAN 缓解模式塌缩的效果。

下图为 OKGAN 训练过程中的反向 KL 散度的图示，可以看出 OKGAN 的伪分布比 BourGAN 更快地收敛到真实分布，并且以更稳定的方式训练 OKGAN，由此可知 OKGAN 通过利用基于核的非参数鉴别器来增加生成样本的多样性。