Although dropout has achieved great success in deep learning, little is known about how it helps the training find a good generalization solution in the high-dimensional parameter space. In this work, we show that the training with dropout finds the neural network with a flatter minimum compared with standard gradient descent training. We further study the underlying mechanism of why dropout finds flatter minima through experiments. We propose a {\it Variance Principle} that the variance of a noise is larger at the sharper direction of the loss landscape. Existing works show that SGD satisfies the variance principle, which leads the training to flatter minima. Our work show that the noise induced by the dropout also satisfies the variance principle that explains why dropout finds flatter minima. In general, our work points out that the variance principle is an important similarity between dropout and SGD that lead the training to find flatter minima and obtain good generalization.


翻译:虽然辍学在深层学习中取得了巨大成功,但对于如何帮助培训在高维参数空间找到一个良好的通用解决方案却知之甚少。 在这项工作中,我们表明,与标准梯度下降培训相比,对辍学者的培训发现神经网络是最优的。我们进一步研究辍学者为何通过实验发现优美迷你的基本机制。我们提议在损失地貌的更明显方向上,噪音差异更大。现有的工程显示,SGD满足了差异原则,导致培训推广迷你。我们的工作表明,辍学者引起的噪音也满足了差异原则,该差异原则解释了辍学者为何会觉得优美迷你。 一般来说,我们的工作指出,辍学者与SGD之间的差异原则是一个重要的相似之处,它引导培训找到优美迷你,并获得良好的概括性。

0
下载
关闭预览

相关内容

【数据科学导论书】Introduction to Datascience,253页pdf
专知会员服务
48+阅读 · 2021年11月15日
专知会员服务
50+阅读 · 2021年8月8日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年6月28日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
65+阅读 · 2021年6月18日
Arxiv
12+阅读 · 2021年3月24日
Learning to Importance Sample in Primary Sample Space
Arxiv
5+阅读 · 2018年5月31日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年6月28日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员