输入梯度惩罚与参数梯度惩罚的一个不等式

2021 年 12 月 27 日 PaperWeekly


©PaperWeekly 原创 · 作者 |  苏剑林
单位 |  追一科技
研究方向 |  NLP、神经网络


在本博客中,已经多次讨论过梯度惩罚相关内容了。从形式上来看,梯度惩罚项分为两种,一种是关于输入梯度惩罚与参数梯度惩罚的一个不等式在本博客中,已经多次讨论过梯度惩罚相关内容了。从形式上来看,梯度惩罚项分为两种,一种是关于输入的梯度惩罚 ,在《对抗训练浅谈:意义、方法和思考(附Keras实现)》《泛化性乱弹:从随机噪声、梯度惩罚到虚拟对抗训练》等文章中我们讨论过,另一种则是关于参数的梯度惩罚 ,在《从动力学角度看优化算法(五):为什么学习率不宜过小?》、《我们真的需要把训练集的损失降低到零吗?》 [1] 等文章我们讨论过。
在相关文章中,两种梯度惩罚都声称有着提高模型泛化性能的能力,那么两者有没有什么联系呢?笔者从 Google 最近的一篇论文《The Geometric Occam's Razor Implicit in Deep Learning》 [2] 学习到了两者的一个不等式,感觉以后可能用得上,在此做个笔记。

最终结果
假设有一个 l 层的 MLP 模型,记为:

其中 是当前层的激活函数, ,即模型的原始输入,为了方便后面的推导,我们记 ;参数全体为 。设 的任意标量函数,那么成立不等式:

其中上式中 用的是普通的 范数,也就是每个元素的平方和再开平方,而 用的则是矩阵的“谱范数”(参考《深度学习中的 Lipschitz 约束:泛化与生成模型》)。该不等式显示,参数的梯度惩罚一定程度上包含了输入的梯度惩罚。


推导过程

显然,为了不等式(2),我们只需要对每一个参数证明:

然后遍历所有 ,将每一式左右两端相加即可。这两个不等式的证明本质上是一个矩阵求导问题,但多数读者可能跟笔者一样,都不熟悉矩阵求导,这时候最佳的办法就是写出分量形式,然后就变成标量的求导问题。
具体来说, 写成分量形式:

然后由链式法则:

然后:

这里 是克罗内克符号。现在我们可以写出:

代入(6)得到:

两边乘以 得:

约定原始向量为列向量,求梯度后矩阵的形状反转,那么上述可以写成矩阵形式:

两边左乘 得:

两边取范数得:

等于第二个不等号来说,矩阵的范数用 范数或者谱范数都是成立的。于是选择所需要的范数后,整理可得式(3);至于式(4)的证明类似,这里不再重复。


简单评析

可能有读者会想问具体该如何理解式(2)?事实上,笔者主要觉得式(2)本身有点意思,以后说不准在某个场景用得上,所以本文主要是对此做个“笔记”,但对它并没有很好的解读结果。

至于原论文的逻辑顺序是这样的:在《从动力学角度看优化算法(五):为什么学习率不宜过小?》中我们介绍了《Implicit Gradient Regularization》(跟本篇论文同一作者),里边指出 SGD 隐式地包含了对参数的梯度惩罚项,而式(2)则说明对参数的梯度惩罚隐式地包含了对输入的梯度惩罚,而对输入的梯度惩罚又跟 Dirichlet 能量有关,Dirichlet 能量则可以作为模型复杂度的表征。所以总的一串推理下来,结论就是:SGD 本身会倾向于选择复杂度比较小的模型

不过,原论文在解读式(2)时,犯了一个小错误。它说初始阶段的 会很接近于 0,所以式(2)中括号的项会很大,因此如果要降低式(2)右边的参数梯度惩罚,那么必须要使得式(2)左边的输入梯度惩罚足够小。然而从《从几何视角来理解模型参数的初始化策略》 [3] 我们知道,常用的初始化方法其实接近于正交初始化,而正交矩阵的谱范数其实为 1,如果考虑激活函数,那么初始化的谱范数其实还大于 1,所以初始化阶段 会很接近于 0 是不成立的。
事实上,对于一个没有训练崩的网络,模型的参数和每一层的输入输出基本上都会保持一种稳定的状态,所以其实整个训练过程中 其实波动都不大,因此右端对参数的梯度惩罚近似等价于左端对输入的乘法惩罚。这是笔者的理解,不需要“ 会很接近于 0”的假设。


文章小结

本文主要介绍了两种梯度惩罚项之间的一个不等式,并给出了自己的证明以及一个简单的评析。

参考文献

[1] https://kexue.fm/archives/7643
[2 ]https://arxiv.org/abs/2111.15090
[3] https://kexue.fm/archives/7180


特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

登录查看更多
0

相关内容

梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
52+阅读 · 2021年11月22日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
19+阅读 · 2021年8月24日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
18+阅读 · 2020年12月9日
《常微分方程》笔记,419页pdf
专知会员服务
70+阅读 · 2020年8月2日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
53+阅读 · 2020年8月1日
积分梯度:一种归因分析方法
极市平台
1+阅读 · 2022年3月17日
多任务学习漫谈:行梯度之事
PaperWeekly
0+阅读 · 2022年2月18日
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
SquarePlus:可能是运算最简单的ReLU光滑近似
PaperWeekly
0+阅读 · 2022年1月20日
概率分布的熵归一化(Entropy Normalization)
PaperWeekly
0+阅读 · 2022年1月3日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Convex-Concave Min-Max Stackelberg Games
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关VIP内容
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
52+阅读 · 2021年11月22日
专知会员服务
25+阅读 · 2021年9月9日
专知会员服务
19+阅读 · 2021年8月24日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
18+阅读 · 2020年12月9日
《常微分方程》笔记,419页pdf
专知会员服务
70+阅读 · 2020年8月2日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
53+阅读 · 2020年8月1日
相关资讯
积分梯度:一种归因分析方法
极市平台
1+阅读 · 2022年3月17日
多任务学习漫谈:行梯度之事
PaperWeekly
0+阅读 · 2022年2月18日
交替方向乘子法(ADMM)算法原理详解
PaperWeekly
3+阅读 · 2022年1月21日
SquarePlus:可能是运算最简单的ReLU光滑近似
PaperWeekly
0+阅读 · 2022年1月20日
概率分布的熵归一化(Entropy Normalization)
PaperWeekly
0+阅读 · 2022年1月3日
WGAN新方案:通过梯度归一化来实现L约束
PaperWeekly
1+阅读 · 2021年12月13日
从最大似然到EM算法:一致的理解方式
PaperWeekly
18+阅读 · 2018年3月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员