Most theoretical studies explaining the regularization effect in deep learning have only focused on gradient descent with a sufficient small learning rate or even gradient flow (infinitesimal learning rate). Such researches, however, have neglected a reasonably large learning rate applied in most practical applications. In this work, we characterize the implicit bias effect of deep linear networks for binary classification using the logistic loss in the large learning rate regime, inspired by the seminal work by Lewkowycz et al. [26] in a regression setting with squared loss. They found a learning rate regime with a large stepsize named the catapult phase, where the loss grows at the early stage of training and eventually converges to a minimum that is flatter than those found in the small learning rate regime. We claim that depending on the separation conditions of data, the gradient descent iterates will converge to a flatter minimum in the catapult phase. We rigorously prove this claim under the assumption of degenerate data by overcoming the difficulty of the non-constant Hessian of logistic loss and further characterize the behavior of loss and Hessian for non-separable data. Finally, we demonstrate that flatter minima in the space spanned by non-separable data along with the learning rate in the catapult phase can lead to better generalization empirically.


翻译:解释深层次学习的正规化效果的大多数理论研究都只侧重于梯度下降,其学习率足够小,甚至梯度流动(不完全的学习率),但这类研究忽略了在最实际应用中应用的相当大学习率;在这项工作中,我们把深线网络的内在偏差效应定性为在大型学习率制度中利用后勤损失进行二线分类,这是由Lewkowycz等人等人(26)在平方损失的回归环境下进行的开创性工作所启发的。他们发现一种学习率制度,它有一个称为弹射阶段,在早期培训阶段损失增加,最终会达到比在小学习率制度中发现的低得多的最低程度。我们声称,根据数据分离条件,在大学习率制度中,梯度下降将集中到一个最优的最低限度。我们严格地证明,在假设数据退化的情况下,克服了不连续的Hessian后勤损失的困难,并进一步说明损失和赫萨尼亚人对非可测量性数据的行为。最后,我们以非可测量性的一般学习率证明,在不易空间学习阶段,我们通过缩缩取的阶段可以证明,在非空间学习率中可以改进。

0
下载
关闭预览

相关内容

专知会员服务
109+阅读 · 2020年6月26日
【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年6月1日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Tree boosting for learning probability measures
Arxiv
0+阅读 · 2021年2月18日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年6月1日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员