Convolutional neural networks (CNNs) are trained using stochastic gradient descent (SGD)-based optimizers. Recently, the adaptive moment estimation (Adam) optimizer has become very popular due to its adaptive momentum, which tackles the dying gradient problem of SGD. Nevertheless, existing optimizers are still unable to exploit the optimization curvature information efficiently. This paper proposes a new AngularGrad optimizer that considers the behavior of the direction/angle of consecutive gradients. This is the first attempt in the literature to exploit the gradient angular information apart from its magnitude. The proposed AngularGrad generates a score to control the step size based on the gradient angular information of previous iterations. Thus, the optimization steps become smoother as a more accurate step size of immediate past gradients is captured through the angular information. Two variants of AngularGrad are developed based on the use of Tangent or Cosine functions for computing the gradient angular information. Theoretically, AngularGrad exhibits the same regret bound as Adam for convergence purposes. Nevertheless, extensive experiments conducted on benchmark data sets against state-of-the-art methods reveal a superior performance of AngularGrad. The source code will be made publicly available at: https://github.com/mhaut/AngularGrad.


翻译:最近,适应性瞬时估计(Adam)优化由于适应性势头而变得非常流行,因为适应性瞬间估计(Adam)优化由于适应性动力,解决了SGD临终的梯度问题。然而,现有的优化者仍然无法有效利用优化曲线曲线信息。本文提议一个新的角格优化器,以考虑连续梯度方向/角的动作。这是文献中首次尝试利用梯度三角信息,但其大小除外。拟议的角格拉德根据先前迭代的梯度三角信息生成一个分以控制步数大小。因此,优化步骤随着刚过渐渐渐渐渐变的更精确步数而变得更为平滑。根据Tangent或Cosine函数计算梯度三角信息开发了两种变式。理论性,角格格拉德展示了与Adam相同的遗憾。然而,在基准数据组上对州/角信息组的梯度三角信息组进行了广泛的实验:Aglas/Agrad 的高级数据组/Agradrod 源显示的高级性。

0
下载
关闭预览

相关内容

专知会员服务
45+阅读 · 2020年10月31日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
236+阅读 · 2019年10月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
已删除
将门创投
3+阅读 · 2020年8月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年7月12日
Arxiv
0+阅读 · 2021年7月9日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2019年3月15日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
3+阅读 · 2020年8月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员