双下降真实发生，UW教授用统计学解释偏差-方差权衡，LeCun转推

会员服务 ·

双下降真实发生，UW教授用统计学解释偏差-方差权衡，LeCun转推

2020 年 10 月 1 日 机器之心

选自Twitter

作者：Daniela Witten

机器之心编译

编辑：陈萍、杜伟

偏差—方差之间的权衡判读对机器学习来说是非常重要的。在深度学习研究中，可能会遇到双下降现象，认为这有悖于偏差—方差权衡。本文通过一个统计学的例子，对偏差—方差权衡展开了形象的解读。

8 月初，华盛顿大学统计学与生物统计学教授 Daniela Witten 在推特上发帖介绍了「偏差 - 方差权衡」与「双下降」之间的关系。这个帖子一经发出便收获了很多点赞与转发。

AI 大咖 Yann LeCun 也转发了该贴，他高度称赞了 Daniela Witten 教授对「双下降」现象的解读。LeCun 写道：「这是对双下降现象非常直观的解释。当模型能力『恰好』能够产生零训练误差时，该现象导致测试误差达到峰值。并且，峰值不会出现在多层网络中，因为它们呈现隐式正则化。」

Daniela Witten 教授的解读究竟有哪些独到之处呢？她开篇是这样介绍的：「还记得偏差—方差权衡吗？它意味着模型在中等程度灵活性条件下表现良好。图中可以看到 U 形测试误差曲线。我们试图找到灵活性的『最佳点』（Sweet Spot）」。

独到的偏差 - 方差权衡解读

上文中的 U 型测试误差曲线基于以下公式：

随着灵活性的增加，（平方）偏差减少，方差增加。「sweet spot」需要权衡偏差和方差，即具有中等程度灵活性的模型。

偏差 - 方差权衡不成立吗？

过去的几年中，尤其是在深度学习领域，已经出现双下降现象。当你继续拟合越来越灵活且对训练数据进行插值处理的模型时，测试误差会再次减小！

在深度学习的背景下，这一点似乎尤为突出（不过，正如我们看到的，这种情况在其他地方也会发生）。到底是怎么回事？偏差—方差权衡是否成立？教科书都错了吗？或者是深度学习的魔力？

深度学习的双下降现象，偏差 - 方差权衡成立

在这篇帖子里，Daniela Witten 教授给出了合理的解释。为了理解深度学习的双下降现象，她列举了一个与深度学习无关的简单示例：自然三次样条曲线（natural cubic spline）。

首先介绍一下什么是样条曲线？本质上，这是一种拟合模型 Y=f（X）+epsilon 的方法，f 是非参数的，由非常光滑的分段多项式构成。

为了拟合样条曲线，Daniela 等人创建了一些基函数，然后通过最小二乘法将响应（response）Y 拟合到基函数上。所用基函数的数量与样条曲线的自由度（degrees of freedom, DF）相同。基函数基本形式如下：

假设 n=20（X, Y），并且想用样条曲线 Y = f(X)+ epsilon 估计 f(X)（此处 f(X)= sin(X)）。

首先，Daniela 等人拟合了一个 4DF 的样条曲线。n=20 时的观测值为灰色小圆点，f(x) 为黑色曲线，拟合函数为浅蓝色曲线。

然后拟合了一个 6DF 的样条曲线。

接着尝试拟合 20DF 的样条曲线，这不是一个好主意。因为得到了 n=20 的观测值，所以为了拟合 20DF 的样条曲线，需要用 20 个特征来运行最小二乘法！结果显示在训练集上零误差，但在测试集上误差非常大！这些糟糕的结果也非常符合偏差 - 方差权衡的预测。

虽然在 20DF 的测试结果非常差，但 Daniela 等人还是进行了 n=20，p=36DF 时的最小二乘法拟合。

这时 p>n，解是不唯一的。为了在无穷多个解中进行选择，Daniela 等人选择了「最小」范数拟合：系数平方和最小的那个（使用了大家最喜欢的矩阵分解 SVD，以实现轻松计算）

下图为 n=20，p=36DF 的拟合结果。

欣慰的是，结果并没有预期的那么糟。下图对比了 20DF 和 36DF 的结果，可见 36DF 的结果比 20DF 要好一点。这是什么原因呢？

下图是训练误差和测试误差曲线，两者的变化曲线差别非常大。以虚线为分界线，当 p>n 时，为什么测试误差（暂时）减少？这难道就是偏差 - 方差权衡所指的对立面吗？

Daniela 等人给出了合理的解释：关键在于 20DF，n=p 时，只有一个最小二乘拟合的训练误差为零。这种拟合会出现大量的振荡。

但是当增加 DF，使得 p>n 时，则会出现大量的插值最小二乘拟合。最小范数的最小二乘拟合是这无数多个拟合中振荡最小的，甚至比 p=n 时的拟合更稳定。

所以，选择最小范数最小二乘拟合实际上意味着 36DF 的样条曲线比 20DF 的样条曲线的灵活性差。

现在，如果在拟合样条曲线时使用了脊惩罚（ridge penalty），而不是最小二乘，结果会怎么样呢？这时将不会有插值训练集，也不会看到双下降，而且会得到更好的测试误差（前提是正确的调整参数值！）

总结

所以，这些与深度学习有何关系？当使用（随机）梯度下降法来拟合神经网络时，实际上是在挑选最小范数解！因此，样条曲线示例非常类似于神经网络双下降时发生的情况。

因此双下降是真实发生的，并不是深度学习魔法。通过统计 - ML 和偏差 - 方差权衡可以理解它。一切都不是魔法，只是统计在发挥作用。

原文链接：

https://threadreaderapp.com/thread/1292293102103748609.html

如何根据任务需求搭配恰当类型的数据库？

在AWS推出的白皮书《进入专用数据库时代》中，介绍了8种数据库类型：关系、键值、文档、内存中、关系图、时间序列、分类账、领域宽列，并逐一分析了每种类型的优势、挑战与主要使用案例。

点击阅读原文或识别二维码，申请免费获取白皮书。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

方差

关注 0

【KDD2020】最小方差采样用于图神经网络的快速训练

专知会员服务

28+阅读 · 2020年7月13日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

69+阅读 · 2020年3月30日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知会员服务

53+阅读 · 2020年3月9日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

【模型泛化教程】标签平滑与Keras, TensorFlow，和深度学习

专知会员服务

21+阅读 · 2019年12月31日

【论文推荐】可解释神经网络，Towards Explainable Deep Neural Networks (xDNN)

专知会员服务

40+阅读 · 2019年12月5日

【MLA 2019】对抗机器学习与对抗视觉，韩亚洪天津大学教授

专知会员服务

46+阅读 · 2019年11月6日

熵与其它信息量估计—国科大UCAS胡包钢教授《信息论与机器学习》课程第四讲

专知

9+阅读 · 2020年3月9日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PPT下载

专知

27+阅读 · 2020年2月25日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

人工智能头条

6+阅读 · 2019年10月22日

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

一文读懂机器学习模型的选择与取舍

DBAplus社群

13+阅读 · 2019年8月25日

如何可视化BERT？你需要先理解神经网络的语言、树和几何性质

机器之心

5+阅读 · 2019年6月14日

报名 | 顾险峰教授讲座：对抗生成网络的几何理论解释

数据派THU

8+阅读 · 2019年3月7日

可解释的机器学习

平均机器

25+阅读 · 2019年2月25日

不！机器学习不是美化后的统计学

论智

4+阅读 · 2018年7月13日

入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计

机器之心

11+阅读 · 2018年4月15日

Regularised Least-Squares Regression with Infinite-Dimensional Output Space

Arxiv

0+阅读 · 2020年12月3日

Uncertainty Quantification by Random Measures and Fields

Arxiv

0+阅读 · 2020年12月2日

Representing and Denoising Wearable ECG Recordings

Arxiv

0+阅读 · 2020年11月30日

Early stopping and polynomial smoothing in regression with reproducing kernels

Arxiv

0+阅读 · 2020年11月28日

Black Loans Matter: Distributionally Robust Fairness for Fighting Subgroup Discrimination

Arxiv

0+阅读 · 2020年11月27日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Few Shot Learning with Simplex

Arxiv

5+阅读 · 2018年7月27日

Robustness Analysis of Visual QA Models by Basic Questions

Arxiv

4+阅读 · 2018年5月26日

Unsupervised Cross-Modality Domain Adaptation of ConvNets for Biomedical Image Segmentations with Adversarial Loss

Arxiv

10+阅读 · 2018年4月29日

Large Scale Local Online Similarity/Distance Learning Framework based on Passive/Aggressive

Arxiv

5+阅读 · 2018年4月5日

VIP会员