In this paper, we introduce Apollo, a quasi-Newton method for nonconvex stochastic optimization, which dynamically incorporates the curvature of the loss function by approximating the Hessian via a diagonal matrix. Importantly, the update and storage of the diagonal approximation of Hessian is as efficient as adaptive first-order optimization methods with linear complexity for both time and memory. To handle nonconvexity, we replace the Hessian with its rectified absolute value, which is guaranteed to be positive-definite. Experiments on three tasks of vision and language show that Apollo achieves significant improvements over other stochastic optimization methods, including SGD and variants of Adam, in term of both convergence speed and generalization performance. The implementation of the algorithm is available at https://github.com/XuezheMax/apollo.


翻译:在本文中,我们介绍阿波罗,这是非康韦克斯蒸汽优化的准纽顿法,它通过对角矩阵与赫森人相近,以动态方式将损失功能的曲线纳入其中。重要的是,黑森的对角近距离的更新和储存与具有适应性的第一阶优化方法一样有效,在时间和记忆上都具有线性复杂性。为了处理非混凝土,我们用被纠正的绝对值取代赫森,保证其绝对值为正定值。关于三种视觉和语言任务的实验表明,阿波罗在趋同速度和一般性性能方面,包括斯吉特和亚当的变体在内的其他对流优化方法都取得了显著的改进。 算法的实施可在https://github.com/XuezheMax/apollo上查阅。

0
下载
关闭预览

相关内容

拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,于20世纪50年代由美国Argonne国家实验室的物理学家W. C. Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠,使得非线性优化这门学科在一夜之间突飞猛进。
专知会员服务
26+阅读 · 2021年4月2日
《图表示学习》报告,McGill助理教授Hamilton讲授,79页ppt
专知会员服务
45+阅读 · 2020年10月31日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
过参数化、剪枝和网络结构搜索
极市平台
17+阅读 · 2019年11月24日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
1+阅读 · 2021年5月27日
Arxiv
0+阅读 · 2021年5月25日
VIP会员
相关VIP内容
专知会员服务
26+阅读 · 2021年4月2日
《图表示学习》报告,McGill助理教授Hamilton讲授,79页ppt
专知会员服务
45+阅读 · 2020年10月31日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
过参数化、剪枝和网络结构搜索
极市平台
17+阅读 · 2019年11月24日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
基础 | 深度学习中的优化算法
黑龙江大学自然语言处理实验室
5+阅读 · 2018年5月11日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员