The problem of vanishing and exploding gradients has been a long-standing obstacle that hinders the effective training of neural networks. Despite various tricks and techniques that have been employed to alleviate the problem in practice, there still lacks satisfactory theories or provable solutions. In this paper, we address the problem from the perspective of high-dimensional probability theory. We provide a rigorous result that shows, under mild conditions, how the vanishing/exploding gradients problem disappears with high probability if the neural networks have sufficient width. Our main idea is to constrain both forward and backward signal propagation in a nonlinear neural network through a new class of activation functions, namely Gaussian-Poincar\'e normalized functions, and orthogonal weight matrices. Experiments on both synthetic and real-world data validate our theory and confirm its effectiveness on very deep neural networks when applied in practice.


翻译:消失和爆炸的梯度问题一直是阻碍神经网络有效培训的长期障碍。尽管在实践中运用了各种技巧和技术来缓解这一问题,但仍然缺乏令人满意的理论或可验证的解决办法。在本文件中,我们从高维概率理论的角度来解决这个问题。我们提供了严格的结果,表明在温和的条件下,如果神经网络有足够的宽度,消失/爆炸的梯度问题会如何以很高的概率消失。我们的主要想法是通过新型的激活功能,即高斯-波因卡尔的正常功能和圆形重量矩阵,限制在非线性神经网络中前向和后向信号传播。合成数据和现实世界数据的实验证实了我们的理论,并在实际应用时证实了它在非常深的神经网络上的有效性。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
专知会员服务
54+阅读 · 2021年6月17日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
156+阅读 · 2020年5月26日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
33+阅读 · 2020年4月15日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2020年1月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Multirate Training of Neural Networks
Arxiv
0+阅读 · 2022年2月3日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2020年9月28日
Arxiv
11+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
4+阅读 · 2020年1月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
相关论文
Multirate Training of Neural Networks
Arxiv
0+阅读 · 2022年2月3日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
4+阅读 · 2020年9月28日
Arxiv
11+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员