为什么局部下降最快的方向就是梯度的负方向？ - 专知

会员服务 ·

0

为什么局部下降最快的方向就是梯度的负方向？

2018 年 6 月 6 日 人工智能头条

来源 | AI有道（公众号ID：redstonewill）

▌什么是梯度？

对于梯度下降算法（Gradient Descent Algorithm），我们都已经很熟悉了。无论是在线性回归（Linear Regression）、逻辑回归（Logistic Regression）还是神经网络（Neural Network）等等，都会用到梯度下降算法。我们先来看一下梯度下降算法的直观解释：

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

▌梯度下降算法

如果函数 $f (θ)$ 是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

其中，θ0是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步（步进长度），θ是更新后的θ0，即下山移动一小步之后的位置。

梯度下降算法的公式非常简单！但是”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

▌一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

不懂上面的公式？没有关系。我用下面这张图来解释。

凸函数f(θ)的某一小段[θ0,θ]由上图黑色曲线表示，可以利用线性近似的思想求出f(θ)的值，如上图红色直线。该直线的斜率等于f(θ)在θ0处的导数。则根据直线方程，很容易得到f(θ)的近似表达式为：

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

▌梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式：

特别需要注意的是， θ − θ 0 不能太大，因为太大的话，线性近似就不够准确，一阶泰勒近似也不成立了。替换之后， f ( θ ) 的表达式为：

重点来了，局部下降的目的是希望每次 θ 更新，都能让函数值 f ( θ ) 变小。也就是说，上式中，我们希望 f ( θ ) < f ( θ 0 ) 。则有：

| | A | | 和 | | B | | 均为标量，在 | | A | | 和 | | B | | 确定的情况下，只要 c o s ( α ) = − 1 ，即

之所以要除以 ∇ f ( θ 0 ) 的模 | | ∇ f ( θ 0 ) | | ，是因为 v 是单位向量。

求出最优解 v 之后，带入到 v θ − θ 0 = η v 中，得：

一般地，因为 | | ∇ f ( θ 0 ) | | 是标量，可以并入到步进因子 η 中，即简化为：

▌总结

我们通过一阶泰勒展开式，利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法，但也许对它的推导过程并不清楚。看了本文，你是否有所收获呢？

精彩预告

◆

AI公开课

◆

时间：6月7日 20:00-21:00

扫描海报二维码，免费报名

添加小助手微信csdnai，加入公开课交流群

点击|阅读原文|免费听课

相关内容

局部下降

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

[有意思的数学] 参数估计

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

GAMENet: Graph Augmented MEmory Networks for Recommending Medication Combination

Arxiv

4+阅读 · 2019年3月7日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Neural Arithmetic Logic Units

Neural Arithmetic Logic Units

Arxiv

5+阅读 · 2018年8月1日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

VIP会员

相关主题

相关VIP内容

【MIT-ICML2020】图神经网络的泛化与表示的局限

【MIT-ICML2020】图神经网络的泛化与表示的局限

专知会员服务

43+阅读 · 2020年6月23日

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

17+阅读 · 2020年4月2日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

287+阅读 · 2019年12月2日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

大模型推理时代的知识编辑

《利用人工智能对军事行动进行建模》

【MIT博士论文】加速科学发现的因果建模实践算法

机器人、无人机与实时影像：应对城市爆炸威胁的三大技术方案

相关资讯

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从动力学角度看优化算法：自适应学习率算法

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

干货 | 深度学习之损失函数与激活函数的选择

干货 | 深度学习之损失函数与激活函数的选择

机器学习算法与Python学习

15+阅读 · 2017年9月18日

[有意思的数学] 参数估计

[有意思的数学] 参数估计

机器学习和数学

15+阅读 · 2017年6月4日

相关论文

GAMENet: Graph Augmented MEmory Networks for Recommending Medication Combination

Arxiv

4+阅读 · 2019年3月7日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

Neural Arithmetic Logic Units

Neural Arithmetic Logic Units

Arxiv

5+阅读 · 2018年8月1日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读