Understanding the implicit bias of training algorithms is of crucial importance in order to explain the success of overparametrised neural networks. In this paper, we study the dynamics of stochastic gradient descent over diagonal linear networks through its continuous time version, namely stochastic gradient flow. We explicitly characterise the solution chosen by the stochastic flow and prove that it always enjoys better generalisation properties than that of gradient flow. Quite surprisingly, we show that the convergence speed of the training loss controls the magnitude of the biasing effect: the slower the convergence, the better the bias. To fully complete our analysis, we provide convergence guarantees for the dynamics. We also give experimental results which support our theoretical claims. Our findings highlight the fact that structured noise can induce better generalisation and they help explain the greater performances observed in practice of stochastic gradient descent over gradient descent.


翻译:理解培训算法的隐含偏差至关重要, 以便解释过度偏差神经网络的成功与否。 在本文中, 我们通过持续的时间版本, 即随机偏差梯度流, 研究二角线性网络的悬浮梯度梯度下降动态。 我们明确地描述由随机流选择的解决方案, 并证明它总是比梯度流具有更好的概括性特性。 非常令人惊讶的是, 我们显示, 培训损失的趋同速度控制着偏差效应的大小: 趋同速度越慢, 偏差越好。 为了完全完成我们的分析, 我们为动态提供趋同保证。 我们还提供实验结果, 支持我们的理论主张。 我们的研究结果突出表明, 结构噪音可以促进更好的概括性, 有助于解释在梯度下降方面观察到的偏差梯度梯度梯度下降的更大性能。

0
下载
关闭预览

相关内容

【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Arxiv
0+阅读 · 2022年2月10日
Arxiv
0+阅读 · 2022年2月7日
Arxiv
64+阅读 · 2021年6月18日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Top
微信扫码咨询专知VIP会员