【干货】深度学习需要了解的四种神经网络优化算法

2018 年 1 月 10 日 专知专知内容组（编）

【导读】近日，Vadim Smolyakov发表了一篇博客，针对当前神经网络的优化算法进行了总结，并利用简单的CNN网络在NMIST数据集上进行实验，探讨不同的优化方法的效果好坏。其中考虑了四种神经网络训练的优化方法：SGD，Nesterov Momentum，RMSProp和Adam，并用TensorFlow进行训练。作者最终得出结果：使用Nesterov Momentum和Adam的SGD产生的结果更好。如果您对神经网络的优化算法还不是很了解，那么相信这篇文章将会给您很好的启发！专知内容组编辑整理。

Neural Network Optimization Algorithms

——A comparison study based on TensorFlow

神经网络优化算法

训练神经网络的最流行的优化算法有哪些?怎么进行比较?

本文在MNIST数据集用卷积神经网络（CNN）进行实验，来回答上述优化问题。

▌随机梯度下降（SGD）

SGD通过数据的一个大小为（m）的子集（subset）或一个小批量（mini-batch）来从梯度负方向上更新模型参数（theta）：

神经网络由 f(x(i); theta)表示，其中x（i）是训练数据，y（i）是标签，损失函数L的梯度是根据模型参数θ计算的。学习率（eps_k）决定了算法沿着梯度（在最小化的情况下为负方向，在最大化的情况下为正方向）下降的步长大小。

学习率是非常重要的超参数。学习率太高（例如> 0.1）会导致参数的更新错过最佳值，学习率太低（例如<1e-5）将导致过长训练时间。一个好的策略是学习率初始化为1e-3，并使用学习率调度器来降低学习率（例如，每四个时间段（epoch）将学习速率减半的一个步长调度器）：

def step_decay(epoch):
    lr_init = 0.001
    drop = 0.5
    epochs_drop = 4.0
    lr_new = lr_init * \
             math.pow(drop, math.floor((1+epoch)/epochs_drop))
    return lr_new

一般来说，我们希望学习率（eps_k）满足Robbins-Monroe条件：

第一个条件确保算法不论起点如何，都能够找到一个局部最优解，第二个是控制振荡。

▌动量（Momentum）

动量累积以指数方式进行衰减，补偿按照过去梯度的均值进行移动:

因此，步长取决于梯度序列的大小和排列的顺序，动量参数alpha的通常值设为0.5和0.9。

▌涅斯捷罗夫动量（Nesterov Momentum）

涅斯捷罗夫动量（Nesterov Momentum）受涅斯捷罗夫加速梯度法的启发：

涅斯捷罗夫动量和标准动量之间的区别在于对梯度进行评估，涅斯捷罗夫动量是在应用了当前速率后对梯度进行评估，因此涅斯捷罗夫的动量为梯度增加了一个校正因子。

▌AdaGrad

AdaGrad是一种设置学习率的自适应方法[3]。我们考虑下图中的两种情况：

左图：缓慢变化的对数似然（小梯度）右图：快速变化的对数似然（大梯度）在目标缓慢变化（左图）的情况下，梯度通常（在大多数点）进行小幅度变化。因此，我们需要一个大的学习速率才能快速达到最优解。在目标快速变化（右图）的情况下，梯度通常是非常大的。使用大的学习速率会导致非常大的步长，来回振荡，但无法达到最优值。

出现这两种情况的原因是学习率的设置与梯度无关。AdaGrad通过积累到目前为止所有的梯度的平方，并将学习率除以这个总和的平方根来解决这个问题：

因此，获得高梯度的参数将会降低其有效学习率，而接收小梯度的参数将增加其学习率。在更平缓的斜率方向上，以及在大学习率的情况下，更谨慎的更新会带来更大的进步。

▌RMSProp

RMSProp改进了AdaGrad的方法，将梯度的累积变成指数加权的移动平均值，即不考虑距离很远的梯度值[4]：

注意，AdaGrad表示，即使在训练开始阶段累积的梯度而导致梯度保持不变，其学习率也会降低。通过引入指数加权移动平均值，离得更近的历史梯度值相对于离得远的历史值被赋予更大的权重。因此，RMSProp已被证明是一种有效的、实用的深度神经网络优化算法。

▌Adam

Adam从“自适应时刻”衍生而来，它可以被看作是RMSProp和动量组合的一个变体，它的更新看起来像RMSProp（除了使用平滑版本的梯度来代替原始随机梯度），Adam的更新还包括一个偏差修正机制[5]：

建议的值是beta_1 = 0.9，beta_2 = 0.999，eps = 1e-8。

▌实验

我使用四种不同的优化器：SGD，Nesterov Momentum，RMSProp和Adam，并用TensorFlow以1e-3的学习速率和交叉熵损失在MNIST数据集上训练CNN网络。下图显示了这四种优化器的训练损失值与迭代值：

从上图中我们可以看出，Adam和Nesterov Momentum优化器产生的训练损失最低！

▌代码

所有的代码链接：

https://github.com/vsmolyakov/experiments_with_python/blob/master/chp03/tensorflow_optimizers.ipynb

▌总结：

我们在训练神经网络的过程中比较了使用不同优化器的效果，并对它们的工作原理有了直观地认识。我们发现，用TensorFlow在MNIST数据集上训练简单CNN时，使用Nesterov Momentum和Adam的SGD产生的结果最好。

▌References

[1] Ian Goodfellow et. al., “Deep Learning”, MIT Press, 2016

[2] Andrej Karpathy, http://cs231n.github.io/neural-networks-3/

[3] Duchi, J. ,Hazan, E. and Singer, Y. “Adaptive subgradient methods for online learning and stochastic optimization”, JMLR, 2011.

[4] Tieleman, T. and Hinton, G. “Lecture 6.5 — RMSProp, COURSERA: Neural Networks for Machine Learning”, Technical Report, 2012.

[5] Diederik Kingma and Jimmy Ba, “Adam: A Method for Stochastic Optimization”, ICLR, 2015

原文链接：

https://towardsdatascience.com/neural-network-optimization-algorithms-1a44c282f61d

-END-

专 · 知

人工智能领域主题知识资料查看获取：【专知荟萃】人工智能领域26个主题知识资料全集（入门/进阶/论文/综述/视频/专家等）

同时欢迎各位用户进行专知投稿，详情请点击：

【诚邀】专知诚挚邀请各位专业者加入AI创作者计划！了解使用专知！

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请扫一扫如下二维码关注我们的公众号，获取人工智能的专业知识！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！

点击“阅读原文”，使用专知！

登录查看更多

相关内容

Nesterov动量法

关注 0

自然语言处理中深度学习模型对抗性攻击综述，41页pdf论文

专知会员服务

63+阅读 · 2020年4月19日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【斯坦福大学】深度学习技巧速查清单《CS 230 - Deep Learning Tips and Tricks Cheatsheet》

专知会员服务

29+阅读 · 2019年12月19日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

285+阅读 · 2019年12月2日

深度学习算法与架构回顾

专知会员服务

84+阅读 · 2019年10月20日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

217+阅读 · 2019年10月18日

深度学习视频中多目标跟踪：论文综述

专知会员服务

94+阅读 · 2019年10月13日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

一文看懂神经网络初始化！吴恩达Deeplearning.ai最新干货

新智元

7+阅读 · 2019年5月14日

深度学习优化算法总结(SGD,AdaGrad,Adam等)

极市平台

34+阅读 · 2019年4月30日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

已删除

将门创投

10+阅读 · 2018年5月2日

什么是学习率，以及它是如何影响深度学习的

论智

85+阅读 · 2018年2月3日

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

教程 | 如何估算深度神经网络的最优学习率

机器之心

3+阅读 · 2017年11月17日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Accelerated Methods for Deep Reinforcement Learning

Arxiv

6+阅读 · 2019年1月10日

Neural Architecture Optimization

Arxiv

8+阅读 · 2018年9月5日

W-net: Bridged U-net for 2D Medical Image Segmentation

Arxiv

20+阅读 · 2018年7月12日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

Variational Recurrent Neural Machine Translation

Arxiv

5+阅读 · 2018年1月16日

VIP会员