This paper underlines a subtle property of batch-normalization (BN): Successive batch normalizations with random linear transformations make hidden representations increasingly orthogonal across layers of a deep neural network. We establish a non-asymptotic characterization of the interplay between depth, width, and the orthogonality of deep representations. More precisely, under a mild assumption, we prove that the deviation of the representations from orthogonality rapidly decays with depth up to a term inversely proportional to the network width. This result has two main implications: 1) Theoretically, as the depth grows, the distribution of the representation -- after the linear layers -- contracts to a Wasserstein-2 ball around an isotropic Gaussian distribution. Furthermore, the radius of this Wasserstein ball shrinks with the width of the network. 2) In practice, the orthogonality of the representations directly influences the performance of stochastic gradient descent (SGD). When representations are initially aligned, we observe SGD wastes many iterations to orthogonalize representations before the classification. Nevertheless, we experimentally show that starting optimization from orthogonal representations is sufficient to accelerate SGD, with no need for BN.


翻译:本文强调了批次正常化的微妙属性(BN):连续批次正常化,其随机线性变异使深神经网络各层的隐性表达式日益正统。我们对深神经网络的深度、宽度和纵深表达体的正向性之间的相互作用建立了一种非抽象特征。更确切地说,根据一种温和的假设,我们证明,从正反正性表达式的偏差会随着深度迅速变异到与网络宽度的反比而迅速变异。这一结果具有两个主要影响:(1) 理论上,随着深度的扩大,表示式的分布 -- -- 在线性层之后 -- -- 与瓦塞斯坦-2球的分布在异地高斯分布区周围。此外,这个瓦塞斯坦球的半径会随着网络的宽度而收缩。(2) 在实践上,表示式的偏差会直接影响到心性梯度梯度下(SGD)的性能。在最初进行对比时,我们观察到SGD会把许多迭代数浪费到分类之前的或多位化的表示式。然而,我们实验性地显示开始从BGD或OGD型显示,不需要加速进行最优化。

0
下载
关闭预览

相关内容

【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
专知会员服务
54+阅读 · 2019年12月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年7月29日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关VIP内容
相关资讯
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员