如何解决梯度消失和梯度膨胀

会员服务 ·

如何解决梯度消失和梯度膨胀

2019 年 3 月 29 日 七月在线实验室

●

今日面试题分享

●

如何解决梯度消失和梯度膨胀

解析：

（1）梯度消失：

根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，在经过足够多层传播之后，误差对输入层的偏导会趋于0

可以采用ReLU激活函数有效的解决梯度消失的情况，也可以用Batch Normalization解决这个问题。

关于深度学习中 Batch Normalization为什么效果好？参见：https://www.zhihu.com/question/38102762

（2）梯度膨胀：

根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大

可以通过激活函数来解决，或用Batch Normalization解决这个问题。

题目来源：七月在线官网（www.julyedu.com）——面试题库——面试大题——深度学习

END

●人工智能人才争抢白热化？学好数学才能C位出道！

●哪些机器学习算法不需要做归一化处理？

●一文详解：什么是B树？

●备战AI求职季 | 100道机器学习面试题（上）

●34个最优秀好用的Python开源框架

●【实战分享】电影推荐系统项目实战应用

●Python打牢基础，从19个语法开始！

●一文让你通俗理解奇异值分解

●CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

扫描下方二维码关注：七月在线实验室

后台回复：100 免费领取【机器学习面试100题】PDF版一份

▼更多精彩推荐，请关注我们▼

把时间交给学习

戳“阅读原文”我们一起进步

在看点一下

登录查看更多

相关内容

梯度消失

关注 82

在机器学习中，使用基于梯度的学习方法和反向传播训练人工神经网络时，会遇到梯度消失的问题。在这种方法中，每个神经网络的权值在每次迭代训练时都得到一个与误差函数对当前权值的偏导数成比例的更新。问题是，在某些情况下，梯度会极小，有效地阻止权值的改变。在最坏的情况下，这可能会完全阻止神经网络进一步的训练。作为问题原因的一个例子，传统的激活函数，如双曲正切函数的梯度在范围(0,1)，而反向传播通过链式法则计算梯度。这样做的效果是将n个这些小数字相乘来计算n层网络中“前端”层的梯度，这意味着梯度(误差信号)随着n的增加呈指数递减，而前端层的训练非常缓慢。

【斯坦福】凸优化圣经- Convex Optimization （附730pdf下载）

专知会员服务

229+阅读 · 2020年6月5日

【硬核课】最新《深度学习优化问题》教程，78页ppt，台大林智仁教授讲解

专知会员服务

150+阅读 · 2020年5月29日