We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Unlike many prior analyses, our results, while perturbative in width, are non-perturbative in the strength of feature learning. Starting from a dynamical mean field theory (DMFT) description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initialization of the network weights. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final NTK and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the SNR of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.


翻译:本文分析了宽且有限特征学习神经网络中有限宽度效应的动力学。与许多以前的分析不同,我们的结果在宽度上是微扰的,而在特征学习的强度上是非微扰的。我们从动态平均场理论(DMFT)描述无限宽深度神经网络核和预测动态出发,提供了DMFT序参量在网络权重的随机初始化上的$\mathcal{O}(1/\sqrt{\text{width}})$波动的表征。在网络训练的惰性极限下,所有的核都是随机的,但是在富有的特征学习的范围内,核和预测的波动是动态耦合的,方差可以自洽地计算。在双层网络中,我们展示了特征学习如何动态地减少最终NTK和最终网络预测的方差。我们还展示了初始化方差如何减缓宽而有限的网络的在线学习。在深层网络中,核的方差可以在大的特征学习强度下通过随后的层显著积累,但特征学习继续提高特征核的信噪比。在离散时间中,我们展示了无限宽度动力学可以很好地捕捉学习率较大的现象,如稳定边缘效应,同时初始化方差可以动态减小。对于在CIFAR-10上进行训练的CNN,我们经验证实了由于有限宽度导致的网络动态的偏差和方差的显著修正。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
50+阅读 · 2020年12月14日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
13+阅读 · 2020年4月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
分享神经网络中设计loss function的一些技巧
极市平台
35+阅读 · 2019年1月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
13+阅读 · 2021年5月25日
VIP会员
相关VIP内容
专知会员服务
50+阅读 · 2021年5月19日
专知会员服务
50+阅读 · 2020年12月14日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
为什么有些模型FLOPs很低,推理速度却很慢?
极市平台
13+阅读 · 2020年4月27日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
分享神经网络中设计loss function的一些技巧
极市平台
35+阅读 · 2019年1月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员