深度学习在实践中的显著成功,从理论的角度揭示了一些重大的惊喜。特别是,简单的梯度方法很容易找到非凸优化问题的接近最优的解决方案,尽管在没有任何明确的努力控制模型复杂性的情况下,这些方法提供了近乎完美的训练数据,这些方法显示了优秀的预测精度。我们推测这些现象背后有特定的原理: 过度参数化允许梯度方法找到插值解,这些方法隐含地施加正则化,过度参数化导致良性过拟合,也就是说,尽管过拟合训练数据,但仍能准确预测。在这篇文章中,我们调查了统计学习理论的最新进展,它提供了在更简单的设置中说明这些原则的例子。我们首先回顾经典的一致收敛结果以及为什么它们不能解释深度学习方法的行为方面。我们在简单的设置中给出隐式正则化的例子,在这些例子中,梯度方法可以得到完美匹配训练数据的最小范数函数。然后我们回顾显示良性过拟合的预测方法,关注二次损失的回归问题。对于这些方法,我们可以将预测规则分解为一个用于预测的简单组件和一个用于过拟合的尖状组件,但在良好的设置下,不会损害预测精度。我们特别关注神经网络的线性区域,其中网络可以用一个线性模型来近似。在这种情况下,我们证明了梯度流的成功,并考虑了双层网络的良性过拟合,给出了精确的渐近分析,精确地证明了过参数化的影响。最后,我们强调了在将这些见解扩展到现实的深度学习设置中出现的关键挑战。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“DLSV” 就可以获取《「深度学习:一种统计视角」,伯克利&斯坦福89页pdf综述论文》专知下载链接