为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients - 专知VIP

会员服务 ·

0

深度学习 · 批处理 · 梯度爆炸 ·

2020 年 4 月 2 日

为什么批处理规范会导致梯度爆炸，Why Batch Norm Causes Exploding Gradients

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

主题： Why Batch Norm Causes Exploding Gradients

摘要： 深度学习从业人员知道，使用Batch Norm通常可以更轻松地训练深层网络。他们还知道爆炸梯度的存在通常会使训练深层网络变得更加困难。因此，Yang等人最近的工作。一切似乎令人惊讶；他们表明，我们钟爱的Batch Norm实际上至少在初始化时会导致爆炸梯度。在这篇文章中，作者将为梯度爆炸现象提供更直观的解释。通过一些“包络线”计算（当然，还有一个大包络），我们可以在简化的设置中显示，通过批归一化，梯度范数在ReLU网络的每一层中以π/（π-1）增长。

成为VIP会员查看完整内容

17

相关内容

深度学习

机器学习的一个分支，它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【ICML2020】用于图结构化数据的卷积核网络，Convolutional Kernel Networks for Graph-Structured Data

【ICML2020】用于图结构化数据的卷积核网络，Convolutional Kernel Networks for Graph-Structured Data

专知会员服务

44+阅读 · 2020年6月29日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从零开始深度学习：dropout与正则化

从零开始深度学习：dropout与正则化

数萃大数据

7+阅读 · 2018年7月22日

深度学习面试100题（第41-45题）

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

最近流行的激活函数

最近流行的激活函数

计算机视觉战队

6+阅读 · 2017年11月27日

BAT机器学习面试1000题系列（第46~50题）

BAT机器学习面试1000题系列（第46~50题）

七月在线实验室

7+阅读 · 2017年10月7日

[学习] 这些深度学习网络训练技巧，你了解吗？

[学习] 这些深度学习网络训练技巧，你了解吗？

菜鸟的机器学习

7+阅读 · 2017年7月29日

Conditional Channel Gated Networks for Task-Aware Continual Learning

Arxiv

5+阅读 · 2020年3月31日

f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning

Arxiv

11+阅读 · 2019年3月25日

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

Arxiv

5+阅读 · 2019年2月7日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

Capsule Networks against Medical Imaging Data Challenges

Capsule Networks against Medical Imaging Data Challenges

Arxiv

3+阅读 · 2018年7月19日

The GAN Landscape: Losses, Architectures, Regularization, and Normalization

Arxiv

3+阅读 · 2018年7月12日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time

Arxiv

4+阅读 · 2018年5月1日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

VIP会员

相关主题

相关VIP内容

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【ICML2020】用于图结构化数据的卷积核网络，Convolutional Kernel Networks for Graph-Structured Data

【ICML2020】用于图结构化数据的卷积核网络，Convolutional Kernel Networks for Graph-Structured Data

专知会员服务

44+阅读 · 2020年6月29日

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

【ICML2020】噪声在随机梯度下降中的泛化效益，On the Generalization Benefit of Noise in Stochastic Gradient Descent

专知会员服务

19+阅读 · 2020年6月29日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

【MIT】对抗鲁棒性的流形正则化，Manifold Regularization for Adversarial Robustness

专知会员服务

28+阅读 · 2020年3月11日

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

【清华-百度】面向季节性时空数据的预测式循环网络及其在城市计算中的应用，计算机学报

专知会员服务

42+阅读 · 2020年3月10日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

热门VIP内容

开通专知VIP会员享更多权益服务

赋能真实世界：基于大语言模型的产业智能体技术、实践与评测综述

军事行动中人工智能系统目标交战的附带损伤评估模型 | 最新文献

【普林斯顿博士论文】面向人本机器人学的安全与学习博弈论融合

美陆军协会（AUSA）2025 年会公布的美国十大武器与防务产品创新

相关资讯

面试时让你手推公式不在害怕 | 梯度下降

面试时让你手推公式不在害怕 | 梯度下降

计算机视觉life

14+阅读 · 2019年3月27日

从零开始深度学习：dropout与正则化

从零开始深度学习：dropout与正则化

数萃大数据

7+阅读 · 2018年7月22日

深度学习面试100题（第41-45题）

深度学习面试100题（第41-45题）

七月在线实验室

15+阅读 · 2018年7月18日

【干货】Batch Normalization: 如何更快地训练深度神经网络

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

如何用张量分解加速深层神经网络？（附代码）

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

最近流行的激活函数

最近流行的激活函数

计算机视觉战队

6+阅读 · 2017年11月27日

BAT机器学习面试1000题系列（第46~50题）

BAT机器学习面试1000题系列（第46~50题）

七月在线实验室

7+阅读 · 2017年10月7日

[学习] 这些深度学习网络训练技巧，你了解吗？

[学习] 这些深度学习网络训练技巧，你了解吗？

菜鸟的机器学习

7+阅读 · 2017年7月29日

相关论文

Conditional Channel Gated Networks for Task-Aware Continual Learning

Arxiv

5+阅读 · 2020年3月31日

f-VAEGAN-D2: A Feature Generating Framework for Any-Shot Learning

Arxiv

11+阅读 · 2019年3月25日

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

CHIP: Channel-wise Disentangled Interpretation of Deep Convolutional Neural Networks

Arxiv

5+阅读 · 2019年2月7日

Stochastic Gradient Descent Optimizes Over-parameterized Deep ReLU Networks

Arxiv

8+阅读 · 2018年11月21日

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

GPU-Accelerated Robotic Simulation for Distributed Reinforcement Learning

Arxiv

4+阅读 · 2018年10月24日

Capsule Networks against Medical Imaging Data Challenges

Capsule Networks against Medical Imaging Data Challenges

Arxiv

3+阅读 · 2018年7月19日

The GAN Landscape: Losses, Architectures, Regularization, and Normalization

Arxiv

3+阅读 · 2018年7月12日

Asynchronous Byzantine Machine Learning (the case of SGD)

Arxiv

3+阅读 · 2018年7月9日

Deep Temporal-Recurrent-Replicated-Softmax for Topical Trends over Time

Arxiv

4+阅读 · 2018年5月1日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

微信扫码咨询专知VIP会员