Empirically it has been observed that the performance of deep neural networks steadily improves as we increase model size, contradicting the classical view on overfitting and generalization. Recently, the double descent phenomena has been proposed to reconcile this observation with theory, suggesting that the test error has a second descent when the model becomes sufficiently overparameterized, as the model size itself acts as an implicit regularizer. In this paper we add to the growing body of work in this space, providing a careful study of learning dynamics as a function of model size for the least squares scenario. We show an excess risk bound for the gradient descent solution of the least squares objective. The bound depends on the smallest non-zero eigenvalue of the covariance matrix of the input features, via a functional form that has the double descent behavior. This gives a new perspective on the double descent curves reported in the literature. Our analysis of the excess risk allows to decouple the effect of optimization and generalization error. In particular, we find that in case of noiseless regression, double descent is explained solely by optimization-related quantities, which was missed in studies focusing on the Moore-Penrose pseudoinverse solution. We believe that our derivation provides an alternative view compared to existing work, shedding some light on a possible cause of this phenomena, at least in the considered least squares setting. We empirically explore if our predictions hold for neural networks, in particular whether the covariance of intermediary hidden activations has a similar behavior as the one predicted by our derivations.


翻译:人们经常看到,随着我们增加模型规模,深度神经网络的性能随着模型规模的扩大而稳步改善,这与传统关于过分装配和笼统化的观点相矛盾。最近,有人提议双重下降现象,以调和这一观察与理论。最近,有人提议双重下降现象,以调和这一观察,表明试验错误具有第二次下降,因为模型的尺寸本身已足够过分,因为模型尺寸本身是一种隐含的规律。在本文中,我们对这一空间日益扩大的工作体层添加了一种仔细的研究,将学习动态作为最小方形情景的模型大小的函数。我们发现,在最小方形目标的梯度下降解决方案中,存在着超大的风险。这一界限取决于输入特征最小的非零损耗值的最小值,其功能形式具有双重下降行为。这为文献中报告的双重下降曲线曲线提供了新的视角。我们对于超重风险的分析可以分解优化和笼统化错误的效果。我们发现,在无噪音的回归中,双重下降的唯一解释是优化相关数量,而我们在研究中最小的类似预测中以模拟的预测为最小的推算。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
159+阅读 · 2020年1月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
已删除
将门创投
8+阅读 · 2019年8月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
已删除
将门创投
8+阅读 · 2019年8月28日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员