Adaptive gradient methods have shown excellent performance for solving many machine learning problems. Although multiple adaptive methods were recently studied, they mainly focus on either empirical or theoretical aspects and also only work for specific problems by using specific adaptive learning rates. It is desired to design a universal framework for practical algorithms of adaptive gradients with theoretical guarantee to solve general problems. To fill this gap, we propose a faster and universal framework of adaptive gradients (i.e., SUPER-ADAM) by introducing a universal adaptive matrix that includes most existing adaptive gradient forms. Moreover, our framework can flexibly integrates the momentum and variance reduced techniques. In particular, our novel framework provides the convergence analysis support for adaptive gradient methods under the nonconvex setting. In theoretical analysis, we prove that our new algorithm can achieve the best known complexity of $\tilde{O}(\epsilon^{-3})$ for finding an $\epsilon$-stationary point of nonconvex optimization, which matches the lower bound for stochastic smooth nonconvex optimization. In numerical experiments, we employ various deep learning tasks to validate that our algorithm consistently outperforms the existing adaptive algorithms.


翻译:适应性梯度方法在解决许多机器学习问题方面表现良好。 尽管最近研究过多种适应性方法,但它们主要侧重于经验或理论方面,并且仅通过使用特定的适应性学习率来应对具体问题。 期望设计一个通用的适应性梯度实际算法框架, 并有理论保证解决一般问题。 为了填补这一空白, 我们建议一个快速和通用的适应性梯度框架( 即SUPER- ADAM), 引入一个包含大多数现有适应性梯度形式的通用适应性矩阵。 此外, 我们的框架可以灵活地整合动力和差异减少的技术。 特别是, 我们的新框架为非convex 设置下的适应性梯度方法提供了趋同性分析支持。 在理论分析中, 我们证明我们的新算法可以达到已知的最复杂的 $\ tilde{O} (\ exsilon ⁇ -3}) $, 用于寻找一个与现有适应性平坦x优化的低约束点, 。 在数字实验中, 我们运用了各种深层次的学习任务来验证我们的算法是否始终高于现有的适应性。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年8月2日
如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
64+阅读 · 2021年2月12日
【DeepMind】强化学习教程,83页ppt
专知会员服务
147+阅读 · 2020年8月7日
最新《几何深度学习》教程,100页ppt,Geometric Deep Learning
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】SLAM相关资源大列表
机器学习研究会
10+阅读 · 2017年8月18日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员