The problem of vanishing and exploding gradients has been a long-standing obstacle that hinders the effective training of neural networks. Despite various tricks and techniques that have been employed to alleviate the problem in practice, there still lacks satisfactory theories or provable solutions. In this paper, we address the problem from the perspective of high-dimensional probability theory. We provide a rigorous result that shows, under mild conditions, how the vanishing/exploding gradients problem disappears with high probability if the neural networks have sufficient width. Our main idea is to constrain both forward and backward signal propagation in a nonlinear neural network through a new class of activation functions, namely Gaussian-Poincar\'e normalized functions, and orthogonal weight matrices. Experiments on both synthetic and real-world data validate our theory and confirm its effectiveness on very deep neural networks when applied in practice.


翻译:消失和爆炸的梯度问题一直是阻碍神经网络有效培训的长期障碍。尽管在实践中运用了各种技巧和技术来缓解这一问题,但仍然缺乏令人满意的理论或可验证的解决办法。在本文件中,我们从高维概率理论的角度来解决这个问题。我们提供了严格的结果,表明在温和的条件下,如果神经网络有足够的宽度,消失/爆炸的梯度问题会如何以很高的概率消失。我们的主要想法是通过新型的激活功能,即高斯-波因卡尔的正常功能和圆形重量矩阵,限制在非线性神经网络中前向和后向信号传播。合成数据和现实世界数据的实验证实了我们的理论,并在实际应用时证实了它在非常深的神经网络上的有效性。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
最新《图理论》笔记书,98页pdf
专知会员服务
74+阅读 · 2020年12月27日
专知会员服务
113+阅读 · 2020年10月8日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
最新《图理论》笔记书,98页pdf
专知会员服务
74+阅读 · 2020年12月27日
专知会员服务
113+阅读 · 2020年10月8日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
相关资讯
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Directional Graph Networks
Arxiv
27+阅读 · 2020年12月10日
Arxiv
19+阅读 · 2020年7月13日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
10+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员