【学习】为什么说随机最速下降法(SGD)是一个很好的方法?

2017 年 9 月 8 日 机器学习研究会


点击上方 “机器学习研究会”可以订阅


摘要
 

转自:袁洋

[本文主要介绍SGD算法,和两篇分析它逃离鞍点的论文: 我与鬲融,金驰,黄芙蓉写的Escaping From Saddle Points – Online Stochastic Gradient for Tensor Decomposition, 以及由金驰,鬲融等人写的最新力作:How to Escape Saddle Points Efficiently]


假如我们要优化一个函数最小值, 常用的方法叫做Gradient Descent (GD), 也就是最速下降法. 说起来很简单, 就是每次沿着当前位置的导数方向走一小步, 走啊走啊就能够走到一个好地方了.


如上图, 就像你下山一样, 每一步你都挑最陡的路走, 如果最后你没摔死的话, 一般你很快就能够走到山脚. 用数学表示一下, 就是


原文链接:

https://zhuanlan.zhihu.com/p/27609238

“完整内容”请点击【阅读原文】
↓↓↓
登录查看更多
0

相关内容

最速下降法又称为梯度法,是1847 年由著名数学家Cauchy 给出的,它是解析法中最古老的一种,其他解析方法或是它的变形,或是受它的启发而得到的,因此它是最优化方法的基础。作为一种基本的算法,他在最优化方法中占有重要地位。其优点是工作量少,存储变量较少,初始点要求不高;缺点是收敛慢,效率不高,有时达不到最优解。非线性规划研究的对象是非线性函数的数值最优化问题。它的理论和方法渗透到许多方面,特别是在军事、经济、管理、生产过程自动化、工程设计和产品优化设计等方面都有着重要的应用。而最速下降法正是n元函数的无约束非线性规划问题min f (x)的一种重要解析法,研究最速下降法原理及其算法实现对我们有着极其重要的意义
专知会员服务
43+阅读 · 2020年7月7日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
一文了解采样方法
AI100
5+阅读 · 2018年7月6日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
如何找到最优学习率?
AI研习社
11+阅读 · 2017年11月29日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
Arxiv
4+阅读 · 2019年2月8日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2020年7月7日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
26+阅读 · 2020年5月7日
相关资讯
面试题:Word2Vec中为什么使用负采样?
七月在线实验室
46+阅读 · 2019年5月16日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从动力学角度看优化算法:一个更整体的视角
黑龙江大学自然语言处理实验室
8+阅读 · 2019年1月28日
一文了解采样方法
AI100
5+阅读 · 2018年7月6日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
如何找到最优学习率?
AI研习社
11+阅读 · 2017年11月29日
干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
机器学习研究会
12+阅读 · 2017年11月25日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
Top
微信扫码咨询专知VIP会员