WGAN新方案：通过梯度归一化来实现L约束

2021 年 12 月 13 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

当前，WGAN 主流的实现方式包括参数裁剪（Weight Clipping）、谱归一化（Spectral Normalization）、梯度惩罚（Gradient Penalty），本来则来介绍一种新的实现方案：梯度归一化（Gradient Normalization），该方案出自两篇有意思的论文，分别是《Gradient Normalization for Generative Adversarial Networks》[1] 和《GraN-GAN: Piecewise Gradient Normalization for Generative Adversarial Networks》[2]。

有意思在什么地方呢？从标题可以看到，这两篇论文应该是高度重合的，甚至应该是同一作者的。但事实上，这是两篇不同团队的、大致是同一时期的论文，一篇中了 ICCV，一篇中了 WACV，它们基于同样的假设推出了几乎一样的解决方案，内容重合度之高让我一直以为是同一篇论文。果然是巧合无处不在啊～

基础回顾

关于 WGAN，我们已经介绍过多次，比如《互怼的艺术：从零直达WGAN-GP》和《从Wasserstein距离、对偶理论到WGAN》，这里就不详细重复了。简单来说，WGAN 的迭代形式为：

这里的关键是判别器是一个带约束优化问题，需要在优化过程中满足 L 约束，所以 WGAN 的实现难度就是如何往里边引入该约束。

这里再普及一下，如果存在某个常数，使得定义域中的任意都满足，那么我们称满足 Lipschitz 约束（L 约束），其中的最小值，我们称为 Lipschitz 常数（L 常数），记为。所以，对于 WGAN 判别器来说，要做到两步：1、要满足 L 约束；2、L 常数要不超过 1。

事实上，当前我们主流的神经网络模型，都是“线性组合+非线性激活函数”的形式，而主流的激活函数是“近线性的”，比如 ReLU、LeakyReLU、SoftPlus 等，它们的导函数的绝对值都不超过 1，所以当前主流的模型其实都满足 L 约束，所以关键是如何让 L 常数不超过 1，当然其实也不用非 1 不可，能保证它不超过某个固定常数就行。

方案简介

参数裁剪和谱归一化的思路是相似的，它们都是通过约束参数，保证模型每一层的 L 常数都有界，所以总的 L 常数也有界；而梯度惩罚则是留意到的一个充分条件是，所以就通过惩罚项来施加“软约束”。

本文介绍的梯度归一化，也是基于同样的充分条件，它利用梯度将变换为，使其自动满足。具体来说，我们通常用 ReLU 或 LeakyReLU 作为激活函数，在这个激活函数之下，实际上是一个“分段线性函数”，这就意味着，除了边界之外，在局部的连续区域内都是一个线性函数，相应地，就是一个常向量。

于是梯度归一化就想着令，这样一来就有

当然，这样可能会有除 0 错误，所以两篇论文提出了不同的解决方案，第一篇（ICCV论文）直接将也加到了分母中，连带保证了函数的有界性：

第二篇（WACV论文）则是比较朴素地加了个：

同时第二篇也提到试验过，效果略差但差不多。

实验结果

现在我们先来看看实验结果。当然，能双双中顶会，实验结果肯定是正面的，部分结果如下图：

▲ ICCV论文的实验结果表格

▲ WACV论文的实验结果表格

▲ ICCV论文的生成效果演示

尚有疑问

结果看上去很好，理论看上去也没问题，还同时被两个顶会认可，看上去是一个好工作无疑了。然而，笔者的困惑才刚刚开始。

该工作最重要的问题是，如果按照分段线性函数的假设，那么的梯度虽然在局部是一个常数，但整体来看它是不连续的（如果梯度全局连续又是常数，那么就是一个线性函数而不是分段线性了），然而本身是一个连续函数，那么就是连续函数除以不连续函数，结果就是一个不连续的函数！

所以问题就来了，不连续的函数居然可以作为判别器，这看起来相当不可思议。要知道这个不连续并非只在某些边界点不连续，而是在两个区域之间的不连续，所以这个不连续是不可忽略的存在。在 Reddit 上，也有读者有着同样的疑问，但目前作者也没有给出合理的解释（链接）。

另一个问题是，如果分段线性函数的假设真的有效，那么我用

作为判别器，理论上应该是等价的，但笔者的实验结果显示这样的效果极差。所以，有一种可能性就是，梯度归一化确实是有效的，但其作用的原因并不像上面两篇论文分析的那么简单，也许有更复杂的生效机制我们还没发现。此外，也可能是我们对 GAN 的理解还远远不够充分，也就是说，对判别器的连续性等要求，也许远远不是我们所想的那样。

最后，在笔者的实验结果中，梯度归一化的效果并不如梯度惩罚，并且梯度惩罚仅仅是训练判别器的时候用到了二阶梯度，而梯度归一化则是训练生成器和判别器都要用到二阶梯度，所以梯度归一化的速度明显下降，显存占用量也明显增加。所以从个人实际体验来看，梯度归一化不算一个特别友好的方案。

文章小结

本文介绍了一种实现 WGAN 的新方案——梯度归一化，该方案形式上比较简单，论文报告的效果也还不错，但个人认为其中还有不少值得疑问之处。

参考文献

[1] https://arxiv.org/abs/2109.02235

[2] https://arxiv.org/abs/2111.03162

[3]https://www.reddit.com/r/MachineLearning/comments/pjdvi4/r_iccv_2021_gradient_normalization_for_generative/

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

WGAN

关注 12

WGAN主要从损失函数的角度对GAN做了改进，损失函数改进之后的WGAN即使在全链接层上也能得到很好的表现结果。

【ICML2021】元学习的分布依赖分析

专知会员服务

19+阅读 · 2021年8月15日

【ICML】应用于齐次神经网络的隐式正则自适应优化器

专知会员服务

12+阅读 · 2021年7月27日

【ICML2021】二值化网络（BNN）训练与优化

专知会员服务

15+阅读 · 2021年7月24日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

110+阅读 · 2020年12月18日

【NeurIPS 2020】学习神经网络中的不变性

专知会员服务

29+阅读 · 2020年10月24日

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

概率分布的熵归一化（Entropy Normalization）

PaperWeekly

0+阅读 · 2022年1月3日

输入梯度惩罚与参数梯度惩罚的一个不等式

PaperWeekly

0+阅读 · 2021年12月27日

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

舍弃谱归一化，这篇ICCV'21论文用梯度归一化训练GAN，效果极好

机器之心

0+阅读 · 2021年11月27日

用狄拉克函数来构造非光滑函数的光滑近似

PaperWeekly

0+阅读 · 2021年10月23日

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

从GAN到WGAN：生成对抗网络背后的数学原理（一）

论智

28+阅读 · 2018年2月14日

GAN的数学原理

算法与数学之美

16+阅读 · 2017年9月2日

基于约束条件的非负矩阵分解算法及其在纤维自动识别中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵方程秩约束广义最佳逼近理论及应用

国家自然科学基金

1+阅读 · 2013年12月31日

局部半完全有向图的分解及相关问题的研究

国家自然科学基金

0+阅读 · 2013年12月31日

组合矩阵论中的秩问题

国家自然科学基金

1+阅读 · 2013年12月31日

基于约束的高维数据聚类

国家自然科学基金

2+阅读 · 2012年12月31日

比式和分式规划问题的稳健解方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

Landau-Brazovsky模型约束最优问题

国家自然科学基金

0+阅读 · 2011年12月31日

约束非线性全局优化的辅助函数方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于无约束凸优化的多尺度动态图像分割方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

约束条件下的模型选择及相关问题的研究

国家自然科学基金

2+阅读 · 2008年12月31日

Adversarial Scratches: Deployable Attacks to CNN Classifiers

Arxiv

0+阅读 · 2022年4月20日

Multifidelity Deep Operator Networks

Arxiv

0+阅读 · 2022年4月19日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

The maximum likelihood degree of sparse polynomial systems

Arxiv

0+阅读 · 2022年4月19日

Polynomial-time sparse measure recovery

Arxiv

0+阅读 · 2022年4月16日

Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks

Arxiv

0+阅读 · 2022年4月14日

Information-theoretic generalization bounds for black-box learning algorithms

Arxiv

12+阅读 · 2021年10月4日

Composite Adversarial Attacks

Arxiv

12+阅读 · 2020年12月10日

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

VIP会员