「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文

2021 年 3 月 20 日 专知

深度学习在实践中的显著成功，从理论的角度揭示了一些重大的惊喜。特别是，简单的梯度方法很容易找到非凸优化问题的接近最优的解决方案，尽管在没有任何明确的努力控制模型复杂性的情况下，这些方法提供了近乎完美的训练数据，这些方法显示了优秀的预测精度。我们推测这些现象背后有特定的原理: 过度参数化允许梯度方法找到插值解，这些方法隐含地施加正则化，过度参数化导致良性过拟合，也就是说，尽管过拟合训练数据，但仍能准确预测。在这篇文章中，我们调查了统计学习理论的最新进展，它提供了在更简单的设置中说明这些原则的例子。我们首先回顾经典的一致收敛结果以及为什么它们不能解释深度学习方法的行为方面。我们在简单的设置中给出隐式正则化的例子，在这些例子中，梯度方法可以得到完美匹配训练数据的最小范数函数。然后我们回顾显示良性过拟合的预测方法，关注二次损失的回归问题。对于这些方法，我们可以将预测规则分解为一个用于预测的简单组件和一个用于过拟合的尖状组件，但在良好的设置下，不会损害预测精度。我们特别关注神经网络的线性区域，其中网络可以用一个线性模型来近似。在这种情况下，我们证明了梯度流的成功，并考虑了双层网络的良性过拟合，给出了精确的渐近分析，精确地证明了过参数化的影响。最后，我们强调了在将这些见解扩展到现实的深度学习设置中出现的关键挑战。

h ttps://www.zhuanzhi.ai/paper/324cdbb68665c1675a05bc147210d8c8

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DLSV” 就可以获取《「深度学习:一种统计视角」，伯克利&斯坦福89页pdf综述论文》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

相关内容

过拟合

关注 8

过拟合，在AI领域多指机器学习得到模型太过复杂，导致在训练集上表现很好，然而在测试集上却不尽人意。过拟合（over-fitting）也称为过学习，它的直观表现是算法在训练集上表现好，但在测试集上表现不好，泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差，在训练时复杂的模型将抽样误差也进行了拟合导致的。

持续学习最新综述论文，29页pdf

专知会员服务

120+阅读 · 2021年4月22日

最新《深度学习人体姿态估计》综述论文，26页pdf

专知会员服务

40+阅读 · 2020年12月29日

最新《非凸优化理论》进展书册，79页pdf

专知会员服务

110+阅读 · 2020年12月18日

最新《可解释机器学习:原理与实践》综述论文，33页pdf

专知会员服务

160+阅读 · 2020年10月10日