Modern deep neural networks are highly over-parameterized compared to the data on which they are trained, yet they often generalize remarkably well. A flurry of recent work has asked: why do deep networks not overfit to their training data? We investigate the hypothesis that deeper nets are implicitly biased to find lower rank solutions and that these are the solutions that generalize well. We prove for the asymptotic case that the percent volume of low effective-rank solutions increases monotonically as linear neural networks are made deeper. We then show empirically that our claim holds true on finite width models. We further empirically find that a similar result holds for non-linear networks: deeper non-linear networks learn a feature space whose kernel has a lower rank. We further demonstrate how linear over-parameterization of deep non-linear models can be used to induce low-rank bias, improving generalization performance without changing the effective model capacity. We evaluate on various model architectures and demonstrate that linearly over-parameterized models outperform existing baselines on image classification tasks, including ImageNet.


翻译:现代深心神经网络与所培训的数据相比,高度超分度的现代深度神经网络与它们所培训的数据相比是高度超分的,但它们往往非常笼统。最近一阵子的工作问:深心网络为什么没有过度适应其培训数据?我们调查了深网被暗含偏向以找到低级解决方案的假设,这些是十分笼统的解决办法。我们证明,在无症状的情况下,随着线性神经网络的深度扩大,低有效级解决方案的百分率会增加单数。我们随后从经验上表明,我们的要求在有限宽度模型上是真实的。我们进一步从经验上发现,非线性网络也有类似的结果:更深的非线性网络学习了一个其内核值较低的地貌空间。我们进一步证明,如何利用深非线性非线性超分度模型来诱发低层次的偏差,在不改变有效模型能力的情况下改进总体性表现。我们评估了各种模型结构,并证明线性过准模型超越了包括图像网络在内的现有图像分类基准。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
【图与几何深度学习】Graph and geometric deep learning,49页ppt
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年5月6日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
3+阅读 · 2018年10月25日
VIP会员
相关VIP内容
【图与几何深度学习】Graph and geometric deep learning,49页ppt
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
相关资讯
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员