Momentum plays a crucial role in stochastic gradient-based optimization algorithms for accelerating or improving training deep neural networks (DNNs). In deep learning practice, the momentum is usually weighted by a well-calibrated constant. However, tuning hyperparameters for momentum can be a significant computational burden. In this paper, we propose a novel \emph{adaptive momentum} for improving DNNs training; this adaptive momentum, with no momentum related hyperparameter required, is motivated by the nonlinear conjugate gradient (NCG) method. Stochastic gradient descent (SGD) with this new adaptive momentum eliminates the need for the momentum hyperparameter calibration, allows a significantly larger learning rate, accelerates DNN training, and improves final accuracy and robustness of the trained DNNs. For instance, SGD with this adaptive momentum reduces classification errors for training ResNet110 for CIFAR10 and CIFAR100 from $5.25\%$ to $4.64\%$ and $23.75\%$ to $20.03\%$, respectively. Furthermore, SGD with the new adaptive momentum also benefits adversarial training and improves adversarial robustness of the trained DNNs.


翻译:运动动力在加速或改进深神经网络培训的基于梯度的优化优化算法中发挥着关键作用。在深层学习实践中,动力通常被一个经过良好校准的恒定体压过。然而,为动力调高超参数可能是一个重要的计算负担。在本文件中,我们提议为改进DNS培训提供一个新的新书 = emph{dadpative 动力 };这种适应性势头,不需要与动力相关的超参数,是由非线性同级梯度(NCG)方法驱动的。这种新适应性梯度下降(SGD)消除了对动力超光度校准的需要,使更大的学习速度得以提高,加速DNNN培训,并提高受过训练的DNNN最终的准确性和稳健性。例如,具有这种适应性势头的SGDGD将CFAR10和CIFAR100培训ResNet110的分类错误从5.25 美元降低到4.64 美元,23.75 美元到20.03美元。此外,具有新适应性动力的SGD还有利于性敌性培训的DDD。

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
已删除
将门创投
3+阅读 · 2019年4月19日
Arxiv
0+阅读 · 2021年1月22日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年4月19日
Top
微信扫码咨询专知VIP会员