题目: The Break-Even Point on Optimization Trajectories of Deep Neural Networks

摘要:

深度神经网络的早期训练对其最终性能至关重要。在这项工作中,我们研究了在训练初期使用的随机梯度下降(SGD)超参数如何影响优化轨迹的其余部分。我们认为在这条轨迹上存在“盈亏平衡点”,超过这个平衡点,损失曲面的曲率和梯度中的噪声将被SGD隐式地正则化。特别是在多个分类任务中,我们证明了在训练的初始阶段使用较大的学习率可以减少梯度的方差,改善梯度的协方差条件。从优化的角度来看,这些效果是有益的,并且在盈亏平衡点之后变得明显。补充之前的工作,我们还表明,使用低的学习率,即使对于具有批处理归一化层的神经网络,也会导致损失曲面的不良适应。简而言之,我们的工作表明,在训练的早期阶段,损失表面的关键属性受到SGD的强烈影响。我们认为,研究确定的效应对泛化的影响是一个有前途的未来研究方向。

成为VIP会员查看完整内容
33

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
【学界】李沐等将目标检测绝对精度提升 4%,不牺牲推理速度
GAN生成式对抗网络
7+阅读 · 2019年2月15日
NIPS 2018 | 轨迹卷积网络 TrajectoryNet
极市平台
8+阅读 · 2019年2月8日
已删除
将门创投
10+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
干货|深度神经网络(DNN)反向传播算法(BP)
全球人工智能
7+阅读 · 2018年1月12日
【教程】如何估算深度神经网络的最优学习率
GAN生成式对抗网络
5+阅读 · 2017年11月18日
教程 | 如何估算深度神经网络的最优学习率
机器之心
3+阅读 · 2017年11月17日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
8+阅读 · 2018年3月20日
VIP会员
相关资讯
【学界】李沐等将目标检测绝对精度提升 4%,不牺牲推理速度
GAN生成式对抗网络
7+阅读 · 2019年2月15日
NIPS 2018 | 轨迹卷积网络 TrajectoryNet
极市平台
8+阅读 · 2019年2月8日
已删除
将门创投
10+阅读 · 2018年5月2日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
干货|深度神经网络(DNN)反向传播算法(BP)
全球人工智能
7+阅读 · 2018年1月12日
【教程】如何估算深度神经网络的最优学习率
GAN生成式对抗网络
5+阅读 · 2017年11月18日
教程 | 如何估算深度神经网络的最优学习率
机器之心
3+阅读 · 2017年11月17日
微信扫码咨询专知VIP会员