L2正则没有想象那么好？可能是“权重尺度偏移”惹的祸

2020 年 8 月 26 日 PaperWeekly

©PaperWeekly 原创 · 作者｜苏剑林

单位｜追一科技

研究方向｜NLP、神经网络

L2 正则是机器学习常用的一种防止过拟合的方法（应该也是一道经常遇到的面试题）。简单来说，它就是希望权重的模长尽可能小一点，从而能抵御的扰动多一点，最终提高模型的泛化性能。但是读者可能也会发现，L2 正则的表现通常没有理论上说的那么好，很多时候加了可能还有负作用。

最近的一篇文章 Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations 从“权重尺度偏移”这个角度分析了 L2 正则的弊端，并提出了新的 WEISSI 正则项。整个分析过程颇有意思，在这里与大家分享一下。

论文标题：Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations

论文链接：https://arxiv.org/abs/2008.02965

相关内容

这一节中我们先简单回顾一下 L2 正则，然后介绍它与权重衰减的联系以及与之相关的 AdamW 优化器 [1] 。

1.1 L2正则的理解

为什么要添加 L2 正则？这个问题可能有多个答案。有从 Ridge 回归角度回答的，有从贝叶斯推断角度回答的，这里给出从扰动敏感性的角度的理解。

对于两个（列）向量，我们有柯西不等式。根据这个结果，我们就可以证明：

这里的等于矩阵的所有元素的平方和。证明并不困难，有兴趣的读者自行完成。

这个结果告诉我们：的变化量，可以被和控制住，因此如果我们希望很小时的变化量也尽可能小，那么我们可以降低，这时候就可以加入正则项。

不难发现，这其实就是 L2 正则。这个角度的相关讨论还可以参考深度学习中的Lipschitz约束：泛化与生成模型（不过要注意两篇文章的记号略有不同）。

1.2 AdamW优化器

在使用 SGD 进行优化时，假设原来的迭代为，那么不难证明加入 L2 正则后变成了：

由于，所以这会使得整个优化过程中参数有“收缩”到 0 的倾向，这样的改动称为“权重衰减（Weight Decay）”。

不过，L2 正则与权重衰减的等价性仅仅是在 SGD 优化器下成立，如果用了自适应学习率优化器如 Adagrad、Adam 等，那么两者不等价。在自适应学习率优化器中，L2 正则的作用约等于往优化过程里边加入而不是。

也就是说每个元素的惩罚都很均匀，而不是绝对值更大的元素惩罚更大，这部分抵消了 L2 正则的作用。论文 Decoupled Weight Decay Regularization [1] 首次强调了这个问题，并且提出了改进的 AdamW 优化器。

新的正则

在这一节中，我们将指出常见的深度学习模型中往往存在“权重尺度偏移（Weight Scale Shif）”现象，这个现象可能会导致了 L2 正则的作用没那么明显。进一步地，我们可以构建一个新的正则项，它具有跟 L2 类似的作用，但是与权重尺度偏移现象更加协调，理论上来说会更加有效。

2.1 权重尺度偏移

我们知道深度学习模型的基本结构就是“线性变换+非线性激活函数”，而现在最常用的激活函数之一是。有意思的是，这两者都满足“正齐次性”，也就是对于，我们有恒成立。

对于其他的激活函数如 SoftPlus、GELU、Swish 等，其实它们都是的光滑近似，因此可以认为它们是近似满足“正齐次性”。

“正齐次性”使得深度学习模型对于权重尺度偏移具有一定的不变性。具体来说，假设一个L层的模型：

假设每个参数引入偏移，那么根据正齐次性可得：

如果，那么参数为就跟参数为的模型完全等价了。

换句话说，模型对于的权重尺度偏移具有不变性（WEIght-Scale-Shift-Invariance，WEISSI）。

2.2 与L2正则不协调

刚才我们说只要尺度偏移满足，那么两组参数对应的模型就等价了，但问题是它们对应的 L2 正则却不等价：

并且可以证明，如果固定，并且保持约束，那么的最小值在：

事实上，这就体现了 L2 正则的低效性。试想一下，假如我们已经训练得到一组参数，这组参数泛化性能可能不大好，于是我们希望 L2 正则能帮助优化器找到一组更好参数（牺牲一点，降低一点）。

但是，上述结果告诉我们，由于权重尺度偏移不变性的存在，模型完全可以找到一组新的参数，它跟原来参数的模型完全等价（没有提升泛化性能），但是 L2 正则还更小（L2 正则起作用了）。说白了，就是 L2 正则确实起作用了，但没有提升模型泛化性能，没有达到使用 L2 正则的初衷。

2.3 WEISSI正则

上述问题的根源在于，模型对权重尺度偏移具有不变性，但是 L2 正则对权重尺度偏移没有不变性。如果我们能找到一个新的正则项，它有类似的作用，同时还对权重尺度偏移不变，那么就能解决这个问题了。个人感觉原论文对这部分的讲解并不够清晰，下面的推导以笔者的个人理解为主。

我们考虑如下的一般形式的正则项：

对于 L2 正则来说，，只要是关于 x 在上的单调递增函数，那么就能保证优化但目标是缩小。要注意我们希望正则项具有尺度偏移不变性，并不需要，而只需要：

因为优化过程只需要用到它的梯度。可能有的读者都能直接看出它的一个解了，其实就是对数函数。所以新提出来的正则项就是：

除此之外，原论文可能担心上述正则项惩罚力度还不够，还对参数方向加了个 L1 的惩罚，总的形式为：

2.4 实验效果简述

按惯例展示一下原论文的是实验结果，当然既然作者都整理成文了，显然说明是有正面结果的：

▲原论文对WEISSI正则的实验结果之一

对于我们来说，无非就是知道有这么个新的选择，炼丹的时候多一种尝试罢了。毕竟正则项这种东西，没有什么理论能保证它一定能起作用，还是用了才能知道结果，别人说得再漂亮也没用。

文章小结

本文介绍了神经网络模型中的权重尺度偏移不变性的现象，并指出它与 L2 正则的不协调性，继而提出了作用类似但能够解决不协调性的正则项。

参考文献

[1] https://arxiv.org/abs/1711.05101

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

正则的

关注 0

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【NeurlPS2019论文总结】一致收敛可能无法解释深度学习中的泛化现象，Uniform convergence may be unable to explain generalization in deep learning

专知会员服务

15+阅读 · 2019年12月17日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

285+阅读 · 2019年12月2日

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

从动力学角度看优化算法：GAN的第三个阶段

PaperWeekly

11+阅读 · 2019年5月13日

L1和L2正则先验分别服从什么分布

七月在线实验室

11+阅读 · 2019年5月8日

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

理解神经网络的激活函数

论智

7+阅读 · 2018年1月8日

如何找到最优学习率？

AI研习社

11+阅读 · 2017年11月29日

深度学习超参数简单理解

计算机视觉战队

4+阅读 · 2017年11月28日

Pipeline PSRO: A Scalable Approach for Finding Approximate Nash Equilibria in Large Games

Arxiv

3+阅读 · 2020年6月15日

Approximability of Discriminators Implies Diversity in GANs

Arxiv

4+阅读 · 2018年6月27日

Mean Field Multi-Agent Reinforcement Learning

Arxiv

5+阅读 · 2018年6月12日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

Generalized Hadamard-Product Fusion Operators for Visual Question Answering

Arxiv

4+阅读 · 2018年4月6日

Multi-scale Location-aware Kernel Representation for Object Detection

Arxiv

5+阅读 · 2018年4月2日

Improving Object Localization with Fitness NMS and Bounded IoU Loss

Arxiv

5+阅读 · 2018年3月12日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

C2MSNet: A Novel approach for single image haze removal

Arxiv

11+阅读 · 2018年1月25日

Image Captioning using Deep Neural Architectures

Arxiv

20+阅读 · 2018年1月17日

VIP会员