Mini-batch stochastic gradient descent (SGD) and variants thereof approximate the objective function's gradient with a small number of training examples, aka the batch size. Small batch sizes require little computation for each model update but can yield high-variance gradient estimates, which poses some challenges for optimization. Conversely, large batches require more computation but can yield higher precision gradient estimates. This work presents a method to adapt the batch size to the model's training loss. For various function classes, we show that our method requires the same order of model updates as gradient descent while requiring the same order of gradient computations as SGD. This method requires evaluating the model's loss on the entire dataset every model update. However, the required computation is greatly reduced with a passive approximation of the adaptive method. We provide extensive experiments illustrating that our methods require fewer model updates without increasing the total amount of computation.


翻译:小型批量的梯度下降(SGD)及其变体与目标函数梯度相近,有少量的培训实例,即批量大小。小批量尺寸对每个模型更新要求很少计算,但可得出高差梯度估计数,这给优化带来一些挑战。相反,大批量需要更多计算,但可得出更精确的梯度估计数。这项工作为调整批量大小以适应模型培训损失提供了一种方法。对于各种功能类别,我们显示我们的方法要求的模型更新顺序与梯度下降相同,同时要求的梯度计算顺序与SGD相同。这种方法要求评估每批模型更新整个数据集的损失。然而,所需计算数量随着适应方法的被动近似性而大大减少。我们提供了广泛的实验,说明我们的方法需要较少的模型更新,而不增加计算总量。

0
下载
关闭预览

相关内容

专知会员服务
142+阅读 · 2021年3月17日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
110+阅读 · 2020年5月15日
人工智能学习笔记,247页pdf
专知会员服务
184+阅读 · 2019年12月14日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
算法优化|梯度下降和随机梯度下降 — 从0开始
全球人工智能
8+阅读 · 2017年12月25日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员