We investigate the reasons for the performance degradation incurred with batch-independent normalization. We find that the prototypical techniques of layer normalization and instance normalization both induce the appearance of failure modes in the neural network's pre-activations: (i) layer normalization induces a collapse towards channel-wise constant functions; (ii) instance normalization induces a lack of variability in instance statistics, symptomatic of an alteration of the expressivity. To alleviate failure mode (i) without aggravating failure mode (ii), we introduce the technique "Proxy Normalization" that normalizes post-activations using a proxy distribution. When combined with layer normalization or group normalization, this batch-independent normalization emulates batch normalization's behavior and consistently matches or exceeds its performance.


翻译:我们调查了分批独立化导致性能退化的原因。我们发现,原型的层级正常化和例例正常化技术都导致神经网络的预激活中出现故障模式:(一) 层正常化导致向频道常态功能的崩溃;(二) 例正常化导致在实例统计数据中缺乏差异性,表现为表达力的改变。为了缓解故障模式 (一) 在不加重故障模式 (二) 的情况下,我们引入了“质正常化”技术,利用代理分配实现活动后活动正常化。在与层正常化或群体正常化相结合的情况下,这种分批独立的正常化模仿了分批正常化的行为,并始终匹配或超过其性能。

0
下载
关闭预览

相关内容

【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
63+阅读 · 2021年11月25日
专知会员服务
76+阅读 · 2021年9月27日
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2020年3月27日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
相关资讯
【总结】强化学习需要批归一化(Batch Norm)吗?
深度强化学习实验室
27+阅读 · 2020年10月8日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Conditional Batch Normalization 详解
极市平台
4+阅读 · 2019年4月12日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
视觉机械臂 visual-pushing-grasping
CreateAMind
3+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员