主题: Why Batch Norm Causes Exploding Gradients

摘要: 深度学习从业人员知道,使用Batch Norm通常可以更轻松地训练深层网络。他们还知道爆炸梯度的存在通常会使训练深层网络变得更加困难。因此,Yang等人最近的工作。一切似乎令人惊讶;他们表明,我们钟爱的Batch Norm实际上至少在初始化时会导致爆炸梯度。在这篇文章中,作者将为梯度爆炸现象提供更直观的解释。通过一些“包络线”计算(当然,还有一个大包络),我们可以在简化的设置中显示,通过批归一化,梯度范数在ReLU网络的每一层中以π/(π-1)增长。

成为VIP会员查看完整内容
16

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
如何用张量分解加速深层神经网络?(附代码)
入门 | 一文了解神经网络中的梯度爆炸
机器之心
8+阅读 · 2017年12月22日
最近流行的激活函数
计算机视觉战队
6+阅读 · 2017年11月27日
BAT机器学习面试1000题系列(第46~50题)
七月在线实验室
7+阅读 · 2017年10月7日
[学习] 这些深度学习网络训练技巧,你了解吗?
菜鸟的机器学习
7+阅读 · 2017年7月29日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从零开始深度学习:dropout与正则化
数萃大数据
7+阅读 · 2018年7月22日
深度学习面试100题(第41-45题)
七月在线实验室
15+阅读 · 2018年7月18日
如何用张量分解加速深层神经网络?(附代码)
入门 | 一文了解神经网络中的梯度爆炸
机器之心
8+阅读 · 2017年12月22日
最近流行的激活函数
计算机视觉战队
6+阅读 · 2017年11月27日
BAT机器学习面试1000题系列(第46~50题)
七月在线实验室
7+阅读 · 2017年10月7日
[学习] 这些深度学习网络训练技巧,你了解吗?
菜鸟的机器学习
7+阅读 · 2017年7月29日
微信扫码咨询专知VIP会员