梯度消失论文 - 专知

会员服务 ·

梯度消失

在机器学习中，使用基于梯度的学习方法和反向传播训练人工神经网络时，会遇到梯度消失的问题。在这种方法中，每个神经网络的权值在每次迭代训练时都得到一个与误差函数对当前权值的偏导数成比例的更新。问题是，在某些情况下，梯度会极小，有效地阻止权值的改变。在最坏的情况下，这可能会完全阻止神经网络进一步的训练。作为问题原因的一个例子，传统的激活函数，如双曲正切函数的梯度在范围(0,1)，而反向传播通过链式法则计算梯度。这样做的效果是将n个这些小数字相乘来计算n层网络中“前端”层的梯度，这意味着梯度(误差信号)随着n的增加呈指数递减，而前端层的训练非常缓慢。

Hyper-Connections

Arxiv

0+阅读 · 3月18日

Standard Gaussian Process is All You Need for High-Dimensional Bayesian Optimization

Arxiv

0+阅读 · 3月11日

CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics

Arxiv

1+阅读 · 2024年12月18日

Hyper-Connections

Arxiv

0+阅读 · 2024年11月28日

Multi-Stage Airway Segmentation in Lung CT Based on Multi-scale Nested Residual UNet

Arxiv

0+阅读 · 2024年10月24日

Standard Gaussian Process Can Be Excellent for High-Dimensional Bayesian Optimization

Arxiv

0+阅读 · 2024年10月9日

Hyper-Connections

Arxiv

0+阅读 · 2024年9月29日

Autaptic Synaptic Circuit Enhances Spatio-temporal Predictive Learning of Spiking Neural Networks

Arxiv

0+阅读 · 2024年6月5日

Autaptic Synaptic Circuit Enhances Spatio-temporal Predictive Learning of Spiking Neural Networks

Arxiv

0+阅读 · 2024年6月1日

Noise-Induced Barren Plateaus in Variational Quantum Algorithms

Arxiv

0+阅读 · 2024年3月2日

Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks

Arxiv

0+阅读 · 2024年1月9日

Review of AlexNet for Medical Image Classification

Arxiv

0+阅读 · 2023年12月22日

Review of AlexNet for Medical Image Classification

Arxiv

0+阅读 · 2023年11月15日

Enhancing Generalization of Universal Adversarial Perturbation through Gradient Aggregation

Arxiv

0+阅读 · 2023年8月11日

HumanDiffusion: diffusion model using perceptual gradients

Arxiv

0+阅读 · 2023年6月21日

参考链接

父主题

微信扫码咨询专知VIP会员