Stochastically controlled stochastic gradient (SCSG) methods have been proved to converge efficiently to first-order stationary points which, however, can be saddle points in nonconvex optimization. It has been observed that a stochastic gradient descent (SGD) step introduces anistropic noise around saddle points for deep learning and non-convex half space learning problems, which indicates that SGD satisfies the correlated negative curvature (CNC) condition for these problems. Therefore, we propose to use a separate SGD step to help the SCSG method escape from strict saddle points, resulting in the CNC-SCSG method. The SGD step plays a role similar to noise injection but is more stable. We prove that the resultant algorithm converges to a second-order stationary point with a convergence rate of $\tilde{O}( \epsilon^{-2} log( 1/\epsilon))$ where $\epsilon$ is the pre-specified error tolerance. This convergence rate is independent of the problem dimension, and is faster than that of CNC-SGD. A more general framework is further designed to incorporate the proposed CNC-SCSG into any first-order method for the method to escape saddle points. Simulation studies illustrate that the proposed algorithm can escape saddle points in much fewer epochs than the gradient descent methods perturbed by either noise injection or a SGD step.


翻译:已经证明,对沙丘控制的沙丘梯度(SCSG)方法能够有效地与一阶固定点相趋同,然而,这些固定点可能是非电流优化的支撑点,据观察,一个随机梯度梯度梯度梯度梯度(SGD)步骤在马鞍点周围造成厌食性噪音,造成深层学习和非电流半空学习问题,这表明SGD满足了与这些问题相关的负曲线(CNC)条件。因此,我们提议采用单独的SGD步骤,帮助SCGD方法从严格的马鞍点逃出,从而形成CNC-SC-SCG方法。SGD步骤的作用类似于噪音注入,但更稳定。我们证明,一个结果的算法将二阶固定点趋同到第二阶点,其趋同率为$tilde{O}(\epsilon ⁇ -2}log (1/\epsilon)),其中美元是预先确定的错误容忍度。我们提议采用这种趋同率与问题层面无关,而且比CNC-SG-SG方法第一步更快。一个较一般的框架用于Smarelma 方向的越轨方法。

0
下载
关闭预览

相关内容

在数学中,鞍点或极大极小点是函数图形表面上的一点,其正交方向上的斜率(导数)都为零,但它不是函数的局部极值。鞍点是在某一轴向(峰值之间)有一个相对最小的临界点,在交叉轴上有一个相对最大的临界点。
专知会员服务
202+阅读 · 2020年12月5日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年4月29日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员