绝对干货 | 随机梯度下降算法综述

会员服务 ·

绝对干货 | 随机梯度下降算法综述

2017 年 10 月 30 日 菜鸟的机器学习 潇湘

本文讲述了“随机梯度下降算法综述”，起源于一篇英文论文，国内也有人专门翻译过，现在在公开课上遇到了，重新温习了一次，故记录下来。链接见文末。

~开始~

菜鸟说：公开课的脉络与原文结构保持了一致。

菜鸟说：梯度下降法一般分为两步：第一、求梯度，第二、选择合适的学习率。

菜鸟说：学习率的选择比较麻烦，在实践中很多的也是尝试，经验发挥较大作用，故自适应学习率才是王道。

菜鸟说：批梯度下降法时间复杂度较高，但稳定性好；随机梯度下降法稳定性差，但时间复杂度较低。所以，小批量随机梯度下降法是批梯度下降法和随机梯度下降法的一种折衷，在工程中也是最为主流的使用方法。

菜鸟说：不稳定性也需一分为二看待，优点：增加了跳出当前局部极小值的可能性；缺点：可能会降低收敛速度，亦受噪音影响。不稳定性不一定会带来好的结果，但带来了好的结果的可能性。

菜鸟说：小批量如何选择呢？有文章说明在几十到几百之间，但与具体应用场景有很大关系。切记：训练之前，训练样本一定要shuffle。

菜鸟说：小批量随机梯度下降法也不是万能的，单独使用也会出现各种各样的问题，需要与其他技术相配合。

菜鸟说：缺点3中意思就是有些特征在训练样本中稀少，有些特征在训练样本很多，若采用相同的学习率，特征少的学习会很不充分，应该采用较大的学习率。

菜鸟说：学习率，自适应学习率+多样性学习率是王道，老铁，没毛病。

菜鸟说：缺点4中在鞍点附近会比较平滑，训练过程中若遇到鞍点，很难逃离了。

菜鸟说：牛顿法是二阶收敛，采用二阶泰勒展现去逼近，收敛速度很快，但时间复杂度、空间复杂度较大。

菜鸟说：在实际应用中，与其遇到鞍点，还不如遇到局部最小值点。

下面正式开始介绍实际应用中解决上述问题的方法

菜鸟说：梯度下降法会在隧道两侧来回震荡，降低收敛速度。

菜鸟说：从更新公式看出，不仅考虑当前的梯度，还考虑以前的余势。

菜鸟说：例如，t-1时刻是往右走，t时刻也是往右走，这样就加速了往右走的速度。

菜鸟说：动量法的问题在于到达山底停不下来，又跑到了另一侧。为了避免这种问题，于是就有了NAG。

菜鸟说：自适应+多样化的更新学习率。

菜鸟说：对于稀疏数据来说，Adagrad效果比较好。它主要考虑历史梯度平方和，即为Grad_Sum，若Grad_Sum大，说明该特征更新较为频繁，这样学习率应该更小些；若Grad_Sum小，说明该特征更新较为不频繁，这样学习率应该大一些。但总体都是衰减的。

菜鸟说：AdaGrad的问题在于每次更新学习率都会衰减，如果衰减到非常小，会造成收敛速度降低，甚至不收敛。所以Adadelta则使用梯度平方的移动平均来取代全部历史平方和，更多考虑距离当前更新近的梯度来作为学习率衰减程度的因素。

菜鸟说：Adadelta有一篇论文，可以看下。

菜鸟说：RMSprop更牛逼，初始学习率都不用选择了，当然，量纲也保持一致了，哈哈。

菜鸟说：如何根据数据选择相应的优化算法呢？应该从问题本身的特点来选择不同的算法。我实践中应用过动量法+Adagrad+Adadelta，Adam还真没有用过，也没有见人用过，囧。

菜鸟说：感觉可以看模型指标，然后通过交叉验证去选择。

菜鸟说：除了从算法角度优化随机梯度下降，也可以从其他的角度去考虑。

菜鸟说：批规范化主要针对多层神经网络，同理，批再规范化也类似。

~结束~

原文题目：An overview of gradient descent optimization algorithms

原文链接：http://sebastianruder.com/optimizing-gradient-descent

视频地址：http://www.julyedu.com/video/play/69/646

登录查看更多

相关内容

随机梯度下降

关注 19

随机梯度下降，按照数据生成分布抽取m个样本，通过计算他们梯度的平均值来更新梯度。

最新《多任务学习》综述，39页pdf

专知会员服务

266+阅读 · 2020年7月10日

最新《动态网络嵌入》综述论文，25页pdf

专知会员服务

138+阅读 · 2020年6月17日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

196+阅读 · 2020年5月14日

【天津大学】知识图谱划分算法研究综述

专知会员服务

111+阅读 · 2020年4月27日

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

多模态深度学习综述，18页pdf

专知会员服务

220+阅读 · 2020年3月29日

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

【文献综述】图像分割综述，224篇参考文献，附58页PDF

专知会员服务

121+阅读 · 2019年6月16日

面经 | 算法工程师面试题汇总

极市平台

12+阅读 · 2019年10月14日

最全综述 | 图像分割算法

计算机视觉life

14+阅读 · 2019年6月20日

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

干货 | 基于深度学习的目标检测算法综述

AI科技评论

18+阅读 · 2018年9月1日

干货 | 基于深度学习的目标检测算法综述（二）

AI科技评论

21+阅读 · 2018年8月20日

已删除

将门创投

10+阅读 · 2018年5月2日

2017年深度学习优化算法最新综述

计算机视觉战队

7+阅读 · 2017年12月18日

【深度干货】2017年深度学习优化算法研究亮点最新综述（附slide下载）

专知

4+阅读 · 2017年12月4日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

精品公开课 | 随机梯度下降算法综述

七月在线实验室

13+阅读 · 2017年7月11日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

To Cluster, or Not to Cluster: An Analysis of Clusterability Methods

Arxiv

4+阅读 · 2018年8月24日

Accelerated Randomized Coordinate Descent Algorithms for Stochastic Optimization and Online Learning

Arxiv

9+阅读 · 2018年7月16日

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

ECO: Efficient Convolutional Network for Online Video Understanding

Arxiv

5+阅读 · 2018年5月7日

Variance Reduction Methods for Sublinear Reinforcement Learning

Arxiv

4+阅读 · 2018年4月25日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

Recursive Feature Generation for Knowledge-based Learning

Arxiv

4+阅读 · 2018年1月31日

VIP会员