We investigate the reasons for the performance degradation incurred with batch-independent normalization. We find that the prototypical techniques of layer normalization and instance normalization both induce the appearance of failure modes in the neural network's pre-activations: (i) layer normalization induces a collapse towards channel-wise constant functions; (ii) instance normalization induces a lack of variability in instance statistics, symptomatic of an alteration of the expressivity. To alleviate failure mode (i) without aggravating failure mode (ii), we introduce the technique "Proxy Normalization" that normalizes post-activations using a proxy distribution. When combined with layer normalization or group normalization, this batch-independent normalization emulates batch normalization's behavior and consistently matches or exceeds its performance.


翻译:我们调查了分批独立化导致性能退化的原因。我们发现,原型的层级正常化和例例正常化技术都导致神经网络的预激活中出现故障模式:(一) 层正常化导致向频道常态功能的崩溃;(二) 例正常化导致在实例统计数据中缺乏差异性,表现为表达力的改变。为了缓解故障模式 (一) 在不加重故障模式 (二) 的情况下,我们引入了“质正常化”技术,利用代理分配实现活动后活动正常化。在与层正常化或群体正常化相结合的情况下,这种分批独立的正常化模仿了分批正常化的行为,并始终匹配或超过其性能。

0
下载
关闭预览

相关内容

【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
61+阅读 · 2021年11月25日
专知会员服务
75+阅读 · 2021年9月27日
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
62+阅读 · 2021年8月20日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
70+阅读 · 2020年8月2日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
On Feature Normalization and Data Augmentation
Arxiv
14+阅读 · 2020年2月25日
A General and Adaptive Robust Loss Function
Arxiv
7+阅读 · 2018年11月5日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关资讯
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员