A well-known issue of Batch Normalization is its significantly reduced effectiveness in the case of small mini-batch sizes. When a mini-batch contains few examples, the statistics upon which the normalization is defined cannot be reliably estimated from it during a training iteration. To address this problem, we present Cross-Iteration Batch Normalization (CBN), in which examples from multiple recent iterations are jointly utilized to enhance estimation quality. A challenge of computing statistics over multiple iterations is that the network activations from different iterations are not comparable to each other due to changes in network weights. We thus compensate for the network weight changes via a proposed technique based on Taylor polynomials, so that the statistics can be accurately estimated and batch normalization can be effectively applied. On object detection and image classification with small mini-batch sizes, CBN is found to outperform the original batch normalization and a direct calculation of statistics over previous iterations without the proposed compensation technique. Code is available at https://github.com/Howal/Cross-iterationBatchNorm .


翻译:众所周知的批量正常化问题是,在小型批量规模小的情况下,它的效果大大降低。当微型批量包含几个例子时,在培训迭代期间,无法可靠地从它那里估算确定正常化所依据的统计数据。为了解决这一问题,我们提出了交叉驱动批量正常化(CBN),其中从最近多次迭代中共同使用实例来提高估计质量。在多迭代中计算统计数据的一个难题是,由于网络重量的变化,不同迭代的网络激活无法相互比较。因此,我们通过基于泰勒多面体的拟议技术来补偿网络重量的变化,从而可以准确估计统计数据,并有效地应用批次正常化。在小型批量大小的物体探测和图像分类方面,CBNN发现,在不采用拟议补偿技术的情况下,CBN超越了原批次正常化,直接计算先前迭代数的统计。代码见https://github.com/Hhomal/Cross-iteriationBatchNorm。

0
下载
关闭预览

相关内容

Python编程基础,121页ppt
专知会员服务
48+阅读 · 2021年1月1日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
专知会员服务
60+阅读 · 2020年3月19日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
192+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Arxiv
4+阅读 · 2020年3月27日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
Python编程基础,121页ppt
专知会员服务
48+阅读 · 2021年1月1日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
专知会员服务
60+阅读 · 2020年3月19日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
192+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
CVPR 2019 | 34篇 CVPR 2019 论文实现代码
AI科技评论
21+阅读 · 2019年6月23日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
五个精彩实用的自然语言处理资源
机器学习研究会
6+阅读 · 2018年2月23日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Layer Normalization原理及其TensorFlow实现
深度学习每日摘要
32+阅读 · 2017年6月17日
Top
微信扫码咨询专知VIP会员