Learning rate decay (lrDecay) is a \emph{de facto} technique for training modern neural networks. It starts with a large learning rate and then decays it multiple times. It is empirically observed to help both optimization and generalization. Common beliefs in how lrDecay works come from the optimization analysis of (Stochastic) Gradient Descent: 1) an initially large learning rate accelerates training or helps the network escape spurious local minima; 2) decaying the learning rate helps the network converge to a local minimum and avoid oscillation. Despite the popularity of these common beliefs, experiments suggest that they are insufficient in explaining the general effectiveness of lrDecay in training modern neural networks that are deep, wide, and nonconvex. We provide another novel explanation: an initially large learning rate suppresses the network from memorizing noisy data while decaying the learning rate improves the learning of complex patterns. The proposed explanation is validated on a carefully-constructed dataset with tractable pattern complexity. And its implication, that additional patterns learned in later stages of lrDecay are more complex and thus less transferable, is justified in real-world datasets. We believe that this alternative explanation will shed light into the design of better training strategies for modern neural networks.


翻译:学习速率衰减( lrDecay) 是用于培训现代神经网络的一种技术。 它从高学习速率开始, 并多次衰减。 实验表明, 在培训深度、 广度和不精密的现代神经网络时, 无法充分解释 lrDecay 的总体效果。 我们提供了另一个新解释: 最初的大学习速率抑制了网络, 使网络从( Stochistic) 的杂乱数据中解脱出来, 同时使学习率衰减, 提高了对复杂模式的学习。 所提议的解释在精心构建的数据集中得到验证, 并具有可感知的模式复杂性。 尽管这些共同信念受到欢迎, 实验表明, 在培训深度、 广度和不精密的现代神经网络中, 无法充分解释 lrDecay 的总体效果。 我们提出的另一个新解释是: 最初的大学习速率抑制了网络, 无法在学习速率降低的同时, 有助于学习模式的学习。 拟议的解释在精心构建的数据集中, 和可感动性模式的复杂性。 它意味着, 在后期所学的其他模式中学到的模型将更复杂, 我们相信这个更难于现代设计的网络。

0
下载
关闭预览

相关内容

Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
157+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
9+阅读 · 2020年2月15日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2019年9月25日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
14+阅读 · 2018年4月27日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
9+阅读 · 2020年2月15日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
6+阅读 · 2019年9月25日
Learning to Weight for Text Classification
Arxiv
8+阅读 · 2019年3月28日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
7+阅读 · 2018年5月23日
Top
微信扫码咨询专知VIP会员