在机器学习中,使用基于梯度的学习方法和反向传播训练人工神经网络时,会遇到梯度消失的问题。在这种方法中,每个神经网络的权值在每次迭代训练时都得到一个与误差函数对当前权值的偏导数成比例的更新。问题是,在某些情况下,梯度会极小,有效地阻止权值的改变。在最坏的情况下,这可能会完全阻止神经网络进一步的训练。作为问题原因的一个例子,传统的激活函数,如双曲正切函数的梯度在范围(0,1),而反向传播通过链式法则计算梯度。这样做的效果是将n个这些小数字相乘来计算n层网络中“前端”层的梯度,这意味着梯度(误差信号)随着n的增加呈指数递减,而前端层的训练非常缓慢。
干货 | 深度详解ResNet及其六大变体
AI100
8+阅读 · 2017年8月8日
[Machine Learning] 深度学习中消失的梯度
全球人工智能
0+阅读 · 2017年12月6日
从ReLU到GELU,一文概览神经网络的激活函数
PaperWeekly
0+阅读 · 2019年12月21日
深度学习中训练参数的调节技巧
数据挖掘入门与实战
2+阅读 · 2018年2月8日
深度学习机器学习面试问题准备(必会)
数据挖掘入门与实战
0+阅读 · 2018年4月27日
ICCV19开源论文 DeepGCNs: Can GCNs Go as Deep as CNNs?
图与推荐
0+阅读 · 2020年5月7日
【干货】深度学习最佳实践之权重初始化
专知
2+阅读 · 2018年4月12日
BiGAN-QP:简单清晰的编码 & 生成模型
PaperWeekly
0+阅读 · 2018年12月11日
BAT题库 | 机器学习面试1000题系列(第131~135题)
七月在线实验室
0+阅读 · 2017年10月27日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
参考链接
微信扫码咨询专知VIP会员