The noise in stochastic gradient descent (SGD), caused by minibatch sampling, is poorly understood despite its practical importance in deep learning. In this work, we study the nature of SGD noise and fluctuation. We show that some degree of mismatch between model and data complexity is needed for SGD to ``stir" a noise; such mismatch may be due to a label or input noise, regularization, or underparametrization. Compared with previous works, the present work focuses on deriving exactly solvable analytical results. Our work also motivates a more accurate general formulation to describe minibatch noise, and we show that the SGD noise takes different shapes and strengths in different kinds of minima.


翻译:微小批量采样引发的悬浮梯度下降(SGD)中的噪音尽管在深层学习中具有实际重要性,但人们对此了解甚少。在这项工作中,我们研究了SGD噪音和波动的性质。我们表明,SGD需要某种程度的模型和数据复杂性不匹配,这种不匹配可能是由于标签或输入噪音、正规化或不对称。与以往的工程相比,目前的工作侧重于得出完全可以溶解的分析结果。我们的工作还激励一种更精确的通用配方来描述微小批量噪音,我们显示SGD噪音在不同类型的小型工程中具有不同的形状和力量。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
12+阅读 · 2019年12月19日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
4+阅读 · 2019年6月5日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
0+阅读 · 2021年7月29日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
VIP会员
相关资讯
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
已删除
将门创投
4+阅读 · 2019年6月5日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Top
微信扫码咨询专知VIP会员