【学习】为什么说随机最速下降法(SGD)是一个很好的方法？ - 专知

会员服务 ·

0

【学习】为什么说随机最速下降法(SGD)是一个很好的方法？

2017 年 9 月 8 日 机器学习研究会

点击上方 “机器学习研究会”可以订阅

摘要

转自：袁洋

[本文主要介绍SGD算法，和两篇分析它逃离鞍点的论文: 我与鬲融，金驰，黄芙蓉写的Escaping From Saddle Points – Online Stochastic Gradient for Tensor Decomposition, 以及由金驰，鬲融等人写的最新力作：How to Escape Saddle Points Efficiently]

假如我们要优化一个函数最小值, 常用的方法叫做Gradient Descent (GD), 也就是最速下降法. 说起来很简单, 就是每次沿着当前位置的导数方向走一小步, 走啊走啊就能够走到一个好地方了.

如上图, 就像你下山一样, 每一步你都挑最陡的路走, 如果最后你没摔死的话, 一般你很快就能够走到山脚. 用数学表示一下, 就是

原文链接：

https://zhuanlan.zhihu.com/p/27609238

“完整内容”请点击【阅读原文】

↓↓↓

登录查看更多

0

相关内容

最速下降

最速下降法又称为梯度法，是1847 年由著名数学家Cauchy 给出的，它是解析法中最古老的一种，其他解析方法或是它的变形，或是受它的启发而得到的，因此它是最优化方法的基础。作为一种基本的算法，他在最优化方法中占有重要地位。其优点是工作量少，存储变量较少，初始点要求不高;缺点是收敛慢，效率不高，有时达不到最优解。非线性规划研究的对象是非线性函数的数值最优化问题。它的理论和方法渗透到许多方面，特别是在军事、经济、管理、生产过程自动化、工程设计和产品优化设计等方面都有着重要的应用。而最速下降法正是n元函数的无约束非线性规划问题min f (x)的一种重要解析法，研究最速下降法原理及其算法实现对我们有着极其重要的意义

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

111+阅读 · 2020年5月15日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【论文】知识图嵌入的群表示理论（Group Representation Theory for Knowledge Graph Embedding），俄亥俄州立大学| Chen Cai

【论文】知识图嵌入的群表示理论（Group Representation Theory for Knowledge Graph Embedding），俄亥俄州立大学| Chen Cai

专知会员服务

31+阅读 · 2019年12月30日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

一文了解采样方法

一文了解采样方法

AI100

5+阅读 · 2018年7月6日

机器学习者都应该知道的五种损失函数！

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

如何找到最优学习率？

如何找到最优学习率？

AI研习社

11+阅读 · 2017年11月29日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

干货 | 如何理解深度学习分布式训练中的large batch size与learning rate的关系？

干货 | 如何理解深度学习分布式训练中的large batch size与learning rate的关系？

AI科技评论

5+阅读 · 2017年11月2日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Universal Invariant and Equivariant Graph Neural Networks

Arxiv

5+阅读 · 2019年5月13日

Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving

Arxiv

6+阅读 · 2019年4月9日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Binarized Knowledge Graph Embeddings

Arxiv

4+阅读 · 2019年2月8日

Adversarial Transfer Learning

Adversarial Transfer Learning

Arxiv

12+阅读 · 2018年12月6日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

VIP会员

相关主题

最速下降法

相关VIP内容

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

111+阅读 · 2020年5月15日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【论文】知识图嵌入的群表示理论（Group Representation Theory for Knowledge Graph Embedding），俄亥俄州立大学| Chen Cai

【论文】知识图嵌入的群表示理论（Group Representation Theory for Knowledge Graph Embedding），俄亥俄州立大学| Chen Cai

专知会员服务

31+阅读 · 2019年12月30日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

【论文推荐】深度学习中贝叶斯不确定性简单基线（A simple baseline for bayesian uncertainty in deep learning）

专知会员服务

46+阅读 · 2019年12月25日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

【强化学习研讨会|Microsoft Research】政策改进学习（Learning for policy improvement），卡内基梅隆大学教授| Geoff Gordon

专知会员服务

13+阅读 · 2019年10月3日

热门VIP内容

开通专知VIP会员享更多权益服务

《使用量化测量将传感器节点关联到融合中心的算法设计》171页

军事前沿模型

提升军事训练能力的最佳人工智能模拟工具

《社交媒体信息作战》最新48页技术报告

相关资讯

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

极市平台

21+阅读 · 2019年9月5日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从动力学角度看优化算法：一个更整体的视角

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

一文了解采样方法

一文了解采样方法

AI100

5+阅读 · 2018年7月6日

机器学习者都应该知道的五种损失函数！

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

如何找到最优学习率？

如何找到最优学习率？

AI研习社

11+阅读 · 2017年11月29日

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

干货|代码原理教你搞懂SGD随机梯度下降、BGD、MBGD

机器学习研究会

12+阅读 · 2017年11月25日

干货 | 如何理解深度学习分布式训练中的large batch size与learning rate的关系？

干货 | 如何理解深度学习分布式训练中的large batch size与learning rate的关系？

AI科技评论

5+阅读 · 2017年11月2日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

相关论文

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Universal Invariant and Equivariant Graph Neural Networks

Arxiv

5+阅读 · 2019年5月13日

Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving

Arxiv

6+阅读 · 2019年4月9日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Binarized Knowledge Graph Embeddings

Arxiv

4+阅读 · 2019年2月8日

Adversarial Transfer Learning

Adversarial Transfer Learning

Arxiv

12+阅读 · 2018年12月6日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Optimal Algorithms for Non-Smooth Distributed Optimization in Networks

Arxiv

7+阅读 · 2018年6月1日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

大家都在搜

大型语言模型

无人机集群

久别重逢话双塔

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员