We introduce a new second-order inertial optimization method for machine learning called INNA. It exploits the geometry of the loss function while only requiring stochastic approximations of the function values and the generalized gradients. This makes INNA fully implementable and adapted to large-scale optimization problems such as the training of deep neural networks. The algorithm combines both gradient-descent and Newton-like behaviors as well as inertia. We prove the convergence of INNA for most deep learning problems. To do so, we provide a well-suited framework to analyze deep learning loss functions involving tame optimization in which we study a continuous dynamical system together with its discrete stochastic approximations. We prove sublinear convergence for the continuous-time differential inclusion which underlies our algorithm. Additionally, we also show how standard optimization mini-batch methods applied to non-smooth non-convex problems can yield a certain type of spurious stationary points never discussed before. We address this issue by providing a theoretical framework around the new idea of $D$-criticality; we then give a simple asymptotic analysis of INNA. Our algorithm allows for using an aggressive learning rate of $o(1/\log k)$. From an empirical viewpoint, we show that INNA returns competitive results with respect to state of the art (stochastic gradient descent, ADAGRAD, ADAM) on popular deep learning benchmark problems.


翻译:我们为机器学习采用了一种新的二级惯性惯性优化方法,称为INNA。它利用了损失函数的几何学分,而只是需要功能值和通用梯度的随机近似值和通用梯度。这使得INNA完全可执行,并适应大规模优化问题,例如深神经网络的培训。算法结合了梯度-日光和牛顿相似的行为以及惰性。我们证明INNA与最深的学习问题相融合。为了做到这一点,我们提供了一个非常合适的框架,用来分析与塔米优化有关的深层次学习损失函数,其中我们只研究连续动态系统及其离散的随机偏差近度。我们证明INNA可以完全执行并适应大规模优化问题,例如深心神经网络网络的训练。此外,我们还展示了标准优化微型批量方法如何在非摩特非convex问题中产生从未讨论过的某种令人兴奋的固定点。我们通过围绕美元临界值的新概念提供理论框架来解决这个问题;我们随后从一个简单的动态系统与离散的随机偏差近近近近。我们用国基值来进行一个简单的亚基调的内基调分析。我们的国家算算法,用国基底值分析,用国基底值来显示国基底值分析。我们的国家基底值的亚学返回法,以显示国基值分析。

1
下载
关闭预览

相关内容

深度学习搜索,Exploring Deep Learning for Search
专知会员服务
60+阅读 · 2020年5月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
4+阅读 · 2021年7月1日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Paraphrase Generation with Deep Reinforcement Learning
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
60+阅读 · 2020年5月9日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
12+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员