The early phase of training of deep neural networks has a dramatic effect on the local curvature of the loss function. For instance, using a small learning rate does not guarantee stable optimization because the optimization trajectory has a tendency to steer towards regions of the loss surface with increasing local curvature. We ask whether this tendency is connected to the widely observed phenomenon that the choice of the learning rate strongly influences generalization. We first show that stochastic gradient descent (SGD) implicitly penalizes the trace of the Fisher Information Matrix (FIM), a measure of the local curvature, from the beginning of training. We argue it is an implicit regularizer in SGD by showing that explicitly penalizing the trace of the FIM can significantly improve generalization. We highlight that poor final generalization coincides with the trace of the FIM increasing to a large value early in training, to which we refer as catastrophic Fisher explosion. Finally, to gain insight into the regularization effect of penalizing the trace of the FIM, we show that it limits memorization by reducing the learning speed of examples with noisy labels more than that of the clean examples.


翻译:深神经网络的早期培训对损失功能的当地曲线有巨大影响。 例如,使用一个小学习率并不能保证稳定的优化,因为优化轨迹倾向于向损失表面区域倾斜,而地方曲线则日益曲线化。 我们问,这一趋势是否与广泛观察到的现象相关,即选择学习率对一般化有强烈影响。 我们首先表明,从培训开始,随机梯度梯度下降(SGD)就暗含地惩罚渔业信息矩阵(FIM)的痕迹(FIM)(FIM)(FIM)(FIM))(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FI)(FIM)(FIM)(FI)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(FIM)(T)(FIM)(FIM)(FIM)(FIM)(I(I(FIM)(FIM)(FIM)(FIM)(I)(I(I)(I)(I(I(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I)(I))(I)(I)(I)(I)(I)(I))(I))(I))(I)(I)(I)(I)(I)(I(I(I)(I)(I))(I)(I(I(I)(I)(I)))))(I)((I)((I)(I)(I))(I)(I)(I)(T)(I(I)(I)(I)(I)(I)(I)(

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年4月2日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员