输入梯度惩罚与参数梯度惩罚的一个不等式

2021 年 12 月 27 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在本博客中，已经多次讨论过梯度惩罚相关内容了。从形式上来看，梯度惩罚项分为两种，一种是关于输入梯度惩罚与参数梯度惩罚的一个不等式在本博客中，已经多次讨论过梯度惩罚相关内容了。从形式上来看，梯度惩罚项分为两种，一种是关于输入的梯度惩罚，在《对抗训练浅谈：意义、方法和思考（附Keras实现）》、《泛化性乱弹：从随机噪声、梯度惩罚到虚拟对抗训练》等文章中我们讨论过，另一种则是关于参数的梯度惩罚，在《从动力学角度看优化算法（五）：为什么学习率不宜过小？》、《我们真的需要把训练集的损失降低到零吗？》 [1] 等文章我们讨论过。

在相关文章中，两种梯度惩罚都声称有着提高模型泛化性能的能力，那么两者有没有什么联系呢？笔者从 Google 最近的一篇论文《The Geometric Occam's Razor Implicit in Deep Learning》 [2] 学习到了两者的一个不等式，感觉以后可能用得上，在此做个笔记。

最终结果

假设有一个 l 层的 MLP 模型，记为：

其中是当前层的激活函数，，即模型的原始输入，为了方便后面的推导，我们记；参数全体为

。设是的任意标量函数，那么成立不等式：

其中上式中用的是普通的范数，也就是每个元素的平方和再开平方，而用的则是矩阵的“谱范数”（参考《深度学习中的 Lipschitz 约束：泛化与生成模型》）。该不等式显示，参数的梯度惩罚一定程度上包含了输入的梯度惩罚。

推导过程

显然，为了不等式（2），我们只需要对每一个参数证明：

然后遍历所有，将每一式左右两端相加即可。这两个不等式的证明本质上是一个矩阵求导问题，但多数读者可能跟笔者一样，都不熟悉矩阵求导，这时候最佳的办法就是写出分量形式，然后就变成标量的求导问题。

具体来说，写成分量形式：

然后由链式法则：

然后：

这里是克罗内克符号。现在我们可以写出：

代入（6）得到：

两边乘以得：

约定原始向量为列向量，求梯度后矩阵的形状反转，那么上述可以写成矩阵形式：

两边左乘得：

两边取范数得：

等于第二个不等号来说，矩阵的范数用范数或者谱范数都是成立的。于是选择所需要的范数后，整理可得式（3）；至于式（4）的证明类似，这里不再重复。

简单评析

可能有读者会想问具体该如何理解式（2）？事实上，笔者主要觉得式（2）本身有点意思，以后说不准在某个场景用得上，所以本文主要是对此做个“笔记”，但对它并没有很好的解读结果。

至于原论文的逻辑顺序是这样的：在《从动力学角度看优化算法（五）：为什么学习率不宜过小？》中我们介绍了《Implicit Gradient Regularization》（跟本篇论文同一作者），里边指出 SGD 隐式地包含了对参数的梯度惩罚项，而式（2）则说明对参数的梯度惩罚隐式地包含了对输入的梯度惩罚，而对输入的梯度惩罚又跟 Dirichlet 能量有关，Dirichlet 能量则可以作为模型复杂度的表征。所以总的一串推理下来，结论就是：SGD 本身会倾向于选择复杂度比较小的模型。

不过，原论文在解读式（2）时，犯了一个小错误。它说初始阶段的会很接近于 0，所以式（2）中括号的项会很大，因此如果要降低式（2）右边的参数梯度惩罚，那么必须要使得式（2）左边的输入梯度惩罚足够小。然而从《从几何视角来理解模型参数的初始化策略》 [3] 我们知道，常用的初始化方法其实接近于正交初始化，而正交矩阵的谱范数其实为 1，如果考虑激活函数，那么初始化的谱范数其实还大于 1，所以初始化阶段会很接近于 0 是不成立的。

事实上，对于一个没有训练崩的网络，模型的参数和每一层的输入输出基本上都会保持一种稳定的状态，所以其实整个训练过程中、、其实波动都不大，因此右端对参数的梯度惩罚近似等价于左端对输入的乘法惩罚。这是笔者的理解，不需要“ 会很接近于 0”的假设。

文章小结

本文主要介绍了两种梯度惩罚项之间的一个不等式，并给出了自己的证明以及一个简单的评析。

参考文献

[1] https://kexue.fm/archives/7643

[2 ]https://arxiv.org/abs/2111.15090

[3] https://kexue.fm/archives/7180

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

梯度

关注 2

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【干货书】优化与学习的随机梯度技术，238页pdf

专知会员服务

54+阅读 · 2021年11月22日

【ICML2021】用于对比表示学习的分解互信息估计

专知会员服务

26+阅读 · 2021年9月9日

【ICML2021】张量分解的隐式正则化

专知会员服务

21+阅读 · 2021年8月24日

【ICML2021】分布式对抗训练中的基本权衡

专知会员服务

17+阅读 · 2021年8月6日

【ICML2021】二值化网络（BNN）训练与优化

专知会员服务

15+阅读 · 2021年7月24日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【AAAI2021】近似梯度下降的学习图神经网络

专知会员服务

20+阅读 · 2020年12月9日

《常微分方程》笔记，419页pdf

专知会员服务

74+阅读 · 2020年8月2日

【ICML2020】机器学习无参数在线优化，294页ppt

专知会员服务

55+阅读 · 2020年8月1日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

积分梯度：一种归因分析方法

极市平台

1+阅读 · 2022年3月17日

多任务学习漫谈：行梯度之事

PaperWeekly

0+阅读 · 2022年2月18日

非凸函数上，随机梯度下降能否收敛？能，但有条件，且比凸函数收敛更难

PaperWeekly

2+阅读 · 2022年2月7日

交替方向乘子法（ADMM）算法原理详解

PaperWeekly

5+阅读 · 2022年1月21日

SquarePlus：可能是运算最简单的ReLU光滑近似

PaperWeekly

0+阅读 · 2022年1月20日

概率分布的熵归一化（Entropy Normalization）

PaperWeekly

0+阅读 · 2022年1月3日

WGAN新方案：通过梯度归一化来实现L约束

PaperWeekly

1+阅读 · 2021年12月13日

从梯度下降到 Adam！一文看懂各种神经网络优化算法

极市平台

0+阅读 · 2021年10月26日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

具有群作用CR流形上的Morse不等式

国家自然科学基金

0+阅读 · 2015年12月31日

矩阵方程秩约束广义最佳逼近理论及应用

国家自然科学基金

1+阅读 · 2013年12月31日

随机信息下的一些函数恢复问题

国家自然科学基金

0+阅读 · 2013年12月31日

椭圆方程组中的向量分析

国家自然科学基金

0+阅读 · 2013年12月31日

基于似然估计的梯度优化在变量带误差模型辨识中的收敛性分析

国家自然科学基金

0+阅读 · 2013年12月31日

回归函数梯度的随机逼近快速算法研究及应用

国家自然科学基金

0+阅读 · 2012年12月31日

函数空间与逼近理论中若干问题的研究

国家自然科学基金

0+阅读 · 2011年12月31日

参数多项式方程组求解及其在机器证明中的应用

国家自然科学基金

0+阅读 · 2009年12月31日

分布参数系统的H-无穷控制理论

国家自然科学基金

0+阅读 · 2009年12月31日

关于矩阵元素的组合分析

国家自然科学基金

0+阅读 · 2009年12月31日

A Novel Fast Exact Subproblem Solver for Stochastic Quasi-Newton Cubic Regularized Optimization

Arxiv

0+阅读 · 2022年4月19日

An improved central limit theorem and fast convergence rates for entropic transportation costs

Arxiv

0+阅读 · 2022年4月19日

Unsupervised detection of ash dieback disease (Hymenoscyphus fraxineus) using diffusion-based hyperspectral image clustering

Arxiv

0+阅读 · 2022年4月19日

Convex-Concave Min-Max Stackelberg Games

Arxiv

0+阅读 · 2022年4月19日

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences

Arxiv

0+阅读 · 2022年4月18日

AFSC: Adaptive Fourier Space Compression for Anomaly Detection

Arxiv

0+阅读 · 2022年4月17日

Energy-adaptive Riemannian optimization on the Stiefel manifold

Arxiv

0+阅读 · 2022年4月16日

Solving the Dirichlet problem for the Monge-Ampère equation using neural networks

Arxiv

0+阅读 · 2022年4月15日

Convergence and Implicit Regularization Properties of Gradient Descent for Deep Residual Networks

Arxiv

0+阅读 · 2022年4月14日

Alternating Mahalanobis Distance Minimization for Stable and Accurate CP Decomposition

Arxiv

0+阅读 · 2022年4月14日

VIP会员