Batch Normalization has become one of the essential components in CNN. It allows the network to use a higher learning rate and speed up training. And the network doesn't need to be initialized carefully. However, in our work, we find that a simple extension of BN can increase the performance of the network. First, we extend BN to adaptively generate scale and shift parameters for each mini-batch data, called DN-C (Batch-shared and Channel-wise). We use the statistical characteristics of mini-batch data ($E[X], Std[X]\in\mathbb{R}^{c}$) as the input of SC module. Then we extend BN to adaptively generate scale and shift parameters for each channel of each sample, called DN-B (Batch and Channel-wise). Our experiments show that DN-C model can't train normally, but DN-B model has very good robustness. In classification task, DN-B can improve the accuracy of the MobileNetV2 on ImageNet-100 more than 2% with only 0.6% additional Mult-Adds. In detection task, DN-B can improve the accuracy of the SSDLite on MS-COCO nearly 4% mAP with the same settings. Compared with BN, DN-B has stable performance when using higher learning rate or smaller batch size.


翻译:批量正常化已经成为CNN的基本组件之一。 它允许网络使用高学习率和加速培训。 网络不需要仔细初始化。 然而, 我们在工作中发现, 简单BN的扩展可以提高网络的性能。 首先, 我们将BN扩大到每个微型批量数据( 称为 DN- C ( 批量共享 和通道- 通道- ) 的适应性生成比例和转换参数。 在分类任务中, 我们使用小批量数据的统计特性( E[ X], Std[ X]\in\mathbb{ R ⁇ c}$) 作为SC 模块的输入。 然后, 我们扩展 BN 以适应方式生成每个样本的大小和转换参数, 称为 DN- B( 批量和频道- ) 。 我们的实验显示, DN- C 模型不能正常地进行培训, 但是 DN- B 模型非常坚固。 在分类任务中, DN- B 能够提高图像网- 100 的准确性, 仅增加0.6% Mult- Adds。 在测试中, 的 SSD- MIB 的精确度中, 的 级学习率可以提高 SSD- B- B- 的比例。

0
下载
关闭预览

相关内容

专知会员服务
155+阅读 · 2021年3月6日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
16+阅读 · 2020年10月18日
专知会员服务
118+阅读 · 2020年7月22日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2020年6月29日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
专知会员服务
155+阅读 · 2021年3月6日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
专知会员服务
44+阅读 · 2020年10月31日
专知会员服务
16+阅读 · 2020年10月18日
专知会员服务
118+阅读 · 2020年7月22日
深度学习搜索,Exploring Deep Learning for Search
专知会员服务
58+阅读 · 2020年5月9日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
相关资讯
如何区分并记住常见的几种 Normalization 算法
极市平台
19+阅读 · 2019年7月24日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员