Newton methods have fallen out of favor for modern optimization problems (e.g. deep learning) because of concerns about per-iteration computational complexity. In this setting highly subsampled first order methods are preferred. In this work we motivate the extension of Newton methods to the highly stochastic regime, and argue for the use of the scalable low rank saddle free Newton (LRSFN) method. In this setting, iterative updates are dominated by stochastic noise, and stability of the method is key. In stability analysis, we demonstrate that stochastic errors for Newton methods can be greatly amplified by ill-conditioned matrix operators. The LRSFN algorithm mitigates this issue by the use of Levenberg-Marquardt damping, but generally second order methods with stochastic Hessian and gradient information may need to take small steps, unlike in deterministic problems. Numerical results show that even under restrictive step-length conditions, LRSFN can outperform popular first order methods on nontrivial deep learning tasks in terms of generalizability for equivalent computational work.


翻译:牛顿方法对于现代优化问题(例如深层学习)已经失去优势,因为人们担心按部就班地计算复杂性。 在这种设置中,偏好高度分抽样的第一顺序方法。 在这项工作中,我们激励牛顿方法推广到高度随机系统,并主张使用可缩放的低级马鞍无牛顿(LRSFN)方法。在这个环境中,迭代更新主要是由随机噪音,而方法的稳定性是关键。在稳定性分析中,我们证明对牛顿方法的随机错误可以通过条件不完善的矩阵操作者大大放大。 勒文伯格-马尔夸德特的算法通过使用利文登堡-马尔夸德调控,缓解了这一问题,但一般来说,与偏差的赫斯和梯度信息相比,可能需要采取小步的第二顺序方法。 数字结果显示,即使在限制性的步长条件下,新牛顿系统也可以超越在同等计算工作一般可读性方面非深层次学习任务的第一顺序方法。

0
下载
关闭预览

相关内容

【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
149+阅读 · 2021年5月9日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
12+阅读 · 2021年3月24日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
149+阅读 · 2021年5月9日
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
专知会员服务
159+阅读 · 2020年1月16日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
【TED】什么让我们生病
英语演讲视频每日一推
7+阅读 · 2019年1月23日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员