在机器学习中,使用基于梯度的学习方法和反向传播训练人工神经网络时,会遇到梯度消失的问题。在这种方法中,每个神经网络的权值在每次迭代训练时都得到一个与误差函数对当前权值的偏导数成比例的更新。问题是,在某些情况下,梯度会极小,有效地阻止权值的改变。在最坏的情况下,这可能会完全阻止神经网络进一步的训练。作为问题原因的一个例子,传统的激活函数,如双曲正切函数的梯度在范围(0,1),而反向传播通过链式法则计算梯度。这样做的效果是将n个这些小数字相乘来计算n层网络中“前端”层的梯度,这意味着梯度(误差信号)随着n的增加呈指数递减,而前端层的训练非常缓慢。
CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!
夕小瑶的卖萌屋
1+阅读 · 2022年6月13日
感悟注意力机制
大数据文摘
0+阅读 · 2022年3月21日
周志华教授:关于深度学习的一点思考
新智元
1+阅读 · 2021年12月27日
模型优化漫谈:BERT的初始标准差为什么是0.02?
PaperWeekly
0+阅读 · 2021年11月26日
周志华教授:关于深度学习的一点思考
专知
0+阅读 · 2021年11月23日
也来谈谈RNN的梯度消失/爆炸问题
PaperWeekly
1+阅读 · 2020年11月30日
人脑是怎么防止梯度消失和梯度爆炸的?
极市平台
2+阅读 · 2020年10月25日
EfficientNet: 模型的联合等比例扩张
AINLP
0+阅读 · 2020年10月14日
ECCV2020 | Unsupervised Batch Normalization
计算机视觉战队
1+阅读 · 2020年7月7日
11种主要神经网络结构图解
极市平台
5+阅读 · 2020年6月30日
参考链接
微信扫码咨询专知VIP会员