谈谈自动微分（Automatic Differentiation） - 专知

会员服务 ·

0

谈谈自动微分（Automatic Differentiation）

2022 年 1 月 3 日 PaperWeekly

©作者 | JermyLu

学校 | 中国科学院大学

研究方向 | 自然语言处理与芯片验证

引言

众所周知，Tensorflow、Pytorch 这样的深度学习框架能够火起来，与其包含自动微分机制有着密不可分的联系，毕竟早期 Pytorch ≈ Numpy+AutoGrad，而 AutoGrad 的基础就是自动微分机制。

常见的梯度求解方法包括：数值微分（Numerical Differentiation）、符号微分（Symbolic Differentiation）和自动微分（Automatic Differentiation）。

数值微分

在数学中，求解梯度 = 求解函数偏导数，而导数是用极限来定义的，如下所示：

其中，表示参数的一个很小的变化量，上式是导数的双边定义形式。如果函数是初等函数，则可使用求导法则得到其导数。如果不能得到函数导数的解析式，则必须使用数值微分方法求解该函数在某个点的导数。

数值微分方法简单，但计算量巨大，而且会造成截断误差（Truncation Error）和舍入误差（Round-off Error）。

当用数值微分方法求解梯度时，需要用极限即无穷过程求解。然而，无穷过程在计算机中是不存在的，计算机需要将无穷过程求解截断为有限过程求解。例如，导数定义中是一个无穷过程，在实际计算中（不能等于 0，等于 0 就不存在变化量了），而可能令，这就带来了截断误差。

舍入误差是指运算得到的精确值无法被计算机存储，只能以近似值代替产生的差异。例如，当实数超过了双精度浮点数可以表示的范围之后，计算机无法精确表示，而只能以其近似值代替，就产生了舍入误差。因此，数值微分方法不适用于神经网络梯度反向传播。

符号微分

符号微分是通过建立符号表达式求解微分的方式，即借助符号表达式和求导公式，推导出目标函数关于自变量的微分表达式，最后代入数值即可得到微分结果。例如，对于表达式，其微分表达式，然后将具体数值和代入，即可得到。

使用符号微分方法时，必须将目标函数转为一个完整的数学表达式，这个过程中会出现表达式膨胀（Expression Swell）的问题，大大增加系统存储和处理表达式的负担。

例如，则

在深层神经网络模型中，神经元数量和参数量极大，完整的损失函数的表达式会非常冗长（比示例复杂的多得多，长的多得多），不易存储和管理；再者，完整写出损失函数的微分表达式也是一项庞大的工作量；最重要的一点，在神经网络的梯度反向传播过程中，只需要微分的（中间）结果值，而不是微分表达式。因此，符号微分方法也不适用于神经网络梯度反向传播。

自动微分

自动微分是一种“原子化”的符号微分 ，其将一个复杂的数学运算过程分解为一系列简单的基本算子，如对数函数、三角函数等，然后对这些基本算子进行符号微分得到中间结果，再应用于整个函数。

首先，我们了解一下链式法则。

单变量函数链式法则：

若是的函数，是的函数，是的函数，则

。

多变量函数链式法则：

若是的函数，都是的函数，则

，类似。

接下来，我们以三层全连接层神经网络为例，解释自动微分机制。

定义： 输入层输出为；隐层输出为；输出层输出为；标签为，损失函数使用范式，即；隐层激活函数为记为，输出层激活函数为记为。

因此： 令，则；令，则，为了方便起见，不考虑偏置项。

这个三层神经网络中，参数只包含和，而梯度反传参数更新，更新的就是和。因此，梯度计算的目标是与。

反向传播是由输出层开始计算梯度，之后逆向传播到每一层网络，直至到达输入层。

输出层发生的计算为，即输出层的输入先经过线性变换右乘转换为中间状态，之后经过激活函数变为。最后，和计算得到损失函数值。

该部分网络的前向计算中，上述过程的计算次序为，而反向计算中节点访问次序与之相反。

1. 计算，即计算损失函数关于网络输出结果的梯度，并将梯度向前传递。

2. 计算记为，即函数相对于其输入的梯度，并将梯度向前传递。

3. 得到之后，下一步的目标是计算与。

；
；
梯度需要继续向前一层传递，用于计算其他变量的梯度；梯度会作为参数的梯度计算结果，用于模型参数的更新。

接下来，我们来分析隐藏层发生的计算，其中分别表示隐藏层的输出、中间结果、输入和参数。该部分网络的前向计算中，上述过程的计算次序为，而反向计算中节点访问次序与之相反。

1. 计算，已知，而即激活函数相对于其输入的梯度，有

，即可获得该梯度记为，并向前传递。

2. 得到之后，下一步计算与：

；
；
梯度需要继续向前一层传递，用于计算其他变量的梯度；梯度会作为参数的梯度计算结果，用于模型参数的更新。

综合输出层和隐藏层的反向传播方法，再根据神经网络有向计算图的拓扑结构，逆向访问每一个节点执行上述梯度计算过程即可得到神经网络中任意位置和任意参数的梯度信息。

总结

链式法则+反向传播+有向图拓扑结构，构成了自动微分机制的基础。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

登录查看更多

1

相关内容

数值微分

结构化剪枝综述

结构化剪枝综述

专知会员服务

49+阅读 · 2021年11月18日

【TPAMI2021】鲁棒可微SVD，Robust Differentiable SVD

专知会员服务

23+阅读 · 2021年4月10日

最新《自动微分》综述教程，71页ppt

最新《自动微分》综述教程，71页ppt

专知会员服务

22+阅读 · 2020年11月22日

最新《自动微分手册》77页pdf

最新《自动微分手册》77页pdf

专知会员服务

103+阅读 · 2020年6月6日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

SquarePlus：可能是运算最简单的ReLU光滑近似

SquarePlus：可能是运算最简单的ReLU光滑近似

PaperWeekly

0+阅读 · 2022年1月20日

再谈变分自编码器（VAE）：估计样本概率密度

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

专知

12+阅读 · 2018年2月12日

机器之心最干的文章：机器学习中的矩阵、向量求导

机器之心最干的文章：机器学习中的矩阵、向量求导

深度学习世界

12+阅读 · 2018年2月7日

非局部Schrödinger方程的高效守恒算法

国家自然科学基金

0+阅读 · 2015年12月31日

带限制条件的凯莱图顶点划分研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Landau-Zener-Stuckelberg效应的超快电荷量子比特研究

国家自然科学基金

0+阅读 · 2013年12月31日

非精确点集的计算几何优化算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Arxiv

0+阅读 · 2022年4月20日

Differentiable Time-Frequency Scattering in Kymatio

Differentiable Time-Frequency Scattering in Kymatio

Arxiv

0+阅读 · 2022年4月19日

Using deep learning to detect patients at risk for prostate cancer despite benign biopsies

Arxiv

0+阅读 · 2022年4月19日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

VIP会员

相关主题

相关VIP内容

结构化剪枝综述

结构化剪枝综述

专知会员服务

49+阅读 · 2021年11月18日

【TPAMI2021】鲁棒可微SVD，Robust Differentiable SVD

专知会员服务

23+阅读 · 2021年4月10日

最新《自动微分》综述教程，71页ppt

最新《自动微分》综述教程，71页ppt

专知会员服务

22+阅读 · 2020年11月22日

最新《自动微分手册》77页pdf

最新《自动微分手册》77页pdf

专知会员服务

103+阅读 · 2020年6月6日

【清华大学】自动微分蒙特卡洛，理论与应用，Automatic Differentiable Monte Carlo: Theory and Application (附pdf）

专知会员服务

28+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能改善军事警察行动：当下现状探索》最新95页报告

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

面向现代武装力量的高级AI驱动军事模拟与训练软件

《军事应用中的AI：建立信任》最新报告

相关资讯

SquarePlus：可能是运算最简单的ReLU光滑近似

SquarePlus：可能是运算最简单的ReLU光滑近似

PaperWeekly

0+阅读 · 2022年1月20日

再谈变分自编码器（VAE）：估计样本概率密度

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

【干货】理解深度学习中的矩阵运算

【干货】理解深度学习中的矩阵运算

专知

12+阅读 · 2018年2月12日

机器之心最干的文章：机器学习中的矩阵、向量求导

机器之心最干的文章：机器学习中的矩阵、向量求导

深度学习世界

12+阅读 · 2018年2月7日

相关基金

非局部Schrödinger方程的高效守恒算法

国家自然科学基金

0+阅读 · 2015年12月31日

带限制条件的凯莱图顶点划分研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于Landau-Zener-Stuckelberg效应的超快电荷量子比特研究

国家自然科学基金

0+阅读 · 2013年12月31日

非精确点集的计算几何优化算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Audio Deep Fake Detection System with Neural Stitching for ADD 2022

Arxiv

0+阅读 · 2022年4月20日

Differentiable Time-Frequency Scattering in Kymatio

Differentiable Time-Frequency Scattering in Kymatio

Arxiv

0+阅读 · 2022年4月19日

Using deep learning to detect patients at risk for prostate cancer despite benign biopsies

Arxiv

0+阅读 · 2022年4月19日

Automatic spinal curvature measurement on ultrasound spine images using Faster R-CNN

Arxiv

1+阅读 · 2022年4月17日

Distributed Machine Learning on Mobile Devices: A Survey

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

大家都在搜

大型语言模型

蓝牙安全攻防

分布式事务

不会玩游戏的管理者

太阳能无人机

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员