基础 | 简单的梯度下降算法，你真的懂了吗？

2018 年 5 月 14 日 黑龙江大学自然语言处理实验室 红色石头

本文授权转载自公众号：AI有道

梯度下降算法的公式非常简单，”沿着梯度的反方向（坡度最陡）“是我们日常经验得到的，其本质的原因到底是什么呢？为什么局部下降最快的方向就是梯度的负方向呢？也许很多朋友还不太清楚。没关系，接下来我将以通俗的语言来详细解释梯度下降算法公式的数学推导过程。

下山问题

假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续沿下一个位置最陡方向前进一小步。这样一步一步走下去，一直走到觉得我们已经到了山脚。这里的下山最陡的方向就是梯度的负方向。

首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在当前位置的导数。

上式中，θ是自变量，f(θ)是关于θ的函数，θ表示梯度。

如果函数f(θ)是凸函数，那么就可以使用梯度下降算法进行优化。梯度下降算法的公式我们已经很熟悉了：

其中，θo是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步（步进长度），θ是更新后的θo，即下山移动一小步之后的位置。

一阶泰勒展开式

这里需要一点数学基础，对泰勒展开式有些了解。简单地来说，一阶泰勒展开式利用的就是函数的局部线性近似这个概念。我们以一阶泰勒展开式为例：

不懂上面的公式？没有关系。我用下面这张图来解释。

凸函数f(θ)的某一小段[θo,θ]由上图黑色曲线表示，可以利用线性近似的思想求出f(θ)的值，如上图红色直线。该直线的斜率等于f(θ)在θo处的导数。则根据直线方程，很容易得到f(θ)的近似表达式为：

这就是一阶泰勒展开式的推导过程，主要利用的数学思想就是曲线函数的线性拟合近似。

梯度下降数学原理

知道了一阶泰勒展开式之后，接下来就是重点了！我们来看一下梯度下降算法是如何推导的。

先写出一阶泰勒展开式的表达式：

其中，θ−θo是微小矢量，它的大小就是我们之前讲的步进长度η，类比于下山过程中每次前进的一小步，η为标量，而θ−θo的单位向量用v表示。则θ−θo可表示为：

特别需要注意的是，θ−θo不能太大，因为太大的话，线性近似就不够准确，一阶泰勒近似也不成立了。替换之后，f(θ)的表达式为：

重点来了，局部下降的目的是希望每次θ更新，都能让函数值f(θ)变小。也就是说，上式中，我们希望f(θ)<f(θo)。则有：

因为η为标量，且一般设定为正值，所以可以忽略，不等式变成了：

上面这个不等式非常重要！v和∇f(θo)都是向量，∇f(θo)是当前位置的梯度方向，v表示下一步前进的单位向量，是需要我们求解的，有了它，就能根据vθ−θo=ηv确定θ值了。

想要两个向量的乘积小于零，我们先来看一下两个向量乘积包含哪几种情况：

A和B均为向量，α为两个向量之间的夹角。A和B的乘积为：

||A||和||B||均为标量，在||A||和||B||确定的情况下，只要cos(α)=−1，即A和B完全反向，就能让A和B的向量乘积最小（负最大值）。

顾名思义，当v与∇f(θo)互为反向，即v为当前梯度方向的负方向的时候，能让v⋅∇f(θo)最大程度地小，也就保证了v的方向是局部下降最快的方向。

知道v是∇f(θo)的反方向后，可直接得到：

之所以要除以∇f(θo)的模||∇f(θo)||，是因为v是单位向量。

求出最优解v之后，带入到θ−θo=ηv中，得：

一般地，因为||∇f(θo)||是标量，可以并入到步进因子η中，即简化为：

这样，我们就推导得到了梯度下降算法中θ的更新表达式。

总结

我们通过一阶泰勒展开式，利用线性近似和向量相乘最小化的思想搞懂了梯度下降算法的数学原理。也许你之前很熟悉梯度下降算法，但也许对它的推导过程并不清楚。看了本文，你是否有所收获呢？

推荐阅读

基础 | TreeLSTM Sentiment Classification

基础 | 详解依存树的来龙去脉及用法

基础 | 基于注意力机制的seq2seq网络

原创 | Simple Recurrent Unit For Sentence Classification

原创 | Highway Networks For Sentence Classification

欢迎关注交流

登录查看更多

相关内容

梯度

关注 2

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

147+阅读 · 2020年7月3日

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

一本有意思的书！《用Python做数学》，265页pdf使用编程探索代数，统计，微积分! Doing Math with Python: Use Programming to Explore Algebra, Statistics, Calculus, and More

专知会员服务

173+阅读 · 2020年4月27日

干货书《数据科学数学系基础》2020最新版，266页pdf

专知会员服务

322+阅读 · 2020年3月23日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【经典】深度学习数学宝典《深度学习所需要的矩阵微积分》

专知会员服务

286+阅读 · 2019年12月2日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从动力学角度看优化算法：一个更整体的视角

黑龙江大学自然语言处理实验室

8+阅读 · 2019年1月28日

从动力学角度看优化算法：自适应学习率算法

PaperWeekly

8+阅读 · 2018年12月27日

计算：XGBoost背后的数学之美

论智

12+阅读 · 2018年8月20日

报名 | 恰到好处的机器学习入门课，一站搞定基础+算法+实战

机器之心

18+阅读 · 2018年7月17日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

算法优化｜梯度下降和随机梯度下降 — 从0开始

全球人工智能

8+阅读 · 2017年12月25日

深度学习超参数简单理解

计算机视觉战队

4+阅读 · 2017年11月28日

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

Probability Weighted Compact Feature for Domain Adaptive Retrieval

Arxiv

4+阅读 · 2020年3月6日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

Grad-CAM++: Generalized Gradient-based Visual Explanations for Deep Convolutional Networks

Arxiv

4+阅读 · 2018年5月8日

Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension

Arxiv

3+阅读 · 2018年4月20日

Learning Region Features for Object Detection

Arxiv

4+阅读 · 2018年3月19日

SimplE Embedding for Link Prediction in Knowledge Graphs

Arxiv

7+阅读 · 2018年2月13日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

VIP会员