解决批标准化中 sample 问题:Filter Response Normalization

2020 年 1 月 16 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


作者:董鑫,哈佛大学·人工智能博士在读
文章链接: https://zhuanlan.zhihu.com/p/94947457
作者主页:https://www.zhihu.com/people/simonxdong/activities
本文已由作者授权转载,未经允许,不得二次转载。


Note: Filter Response Normalization from Google


这是一篇来自 Google AI 的一篇文章,提出了一种解决 batch normalization 中的 sample 问题的新方法。



Previous Work


关于不同的 normalization 的方法,看这张图基本上就够了。




Notation


  是卷积层的输出结果,他的 size 是  ,    是 batch size,   分别是输出 feature map 的长和宽,    是输出的 channel,也可以说成这一层的 filter 的数量。

然后对于里面的某一个 batch 的某一个 channel,我们用     表示。   。

Method


Filter Response Normalization (FRN)


 

当然你是可以像 BN 一样加上两个 affine parameters,提高网络的表达能力。


跟正常的 batch normalization 相比,FRN (就是这篇文章的方法)有两个不同:

  1. 都是在 channel level 做 normalization 的,但是 FRN 没有在 batch 这个维度上求 variance (其实相当于 batch size=1)。自然不会受制于 batch size

  2. FRN 里面,没有减去 mean。


这个地方我们可以大胆猜想一下。也许 mean 对 batch size 是比较敏感的,但是 variance 无所谓。所以这里保留了 variance 的部分,而把 mean 的部分转移给了我们后面要谈到的部分

Thresholded Linear Unit (TLU)


因为上面缺少了 mean centering 部分,所以我们这里用到一个新的激活函数。这个激活函数说来也简单,就是让 ReLU 是可以 learn 的。


这里的     就是那个可以 learn 的 threshold。
However, this does not appear to be identical to absorbing the biases in the previous and subsequent layers based on our experiments. We hypothesize that the form of TLU is more favorable for optimization. TLU significantly improves the performance of models using FRN (see Table 5), outperforming BN and other alternatives, and leads to our method, FRN layer. 
这个实验很有意思,可以看出来两个事情:

  1. TLU 不会让 正常 BN 变差 (只差了 0.2,不同说明太多问题,所以认为没有变差),但是能让 FRN 大幅度变好;

  2. 其实只要对 ReLU 做一些参数化的改动都能让 TLU 变好,但是还是 TLU 最好用。


这里有一个小细节,需要讨论一下。   本来只是一个为了防止除零的一个值,但是对一些网络来说,有时候 feature map 的 size 是 1x1, 这样的话,上面的 normalization 就变成 sign 函数了。这个时候解决办法就是把    也变成 learnable 的。


PS:点击阅读原文进入极市社区,直接跳转文中链接~


-End-




*延伸阅读


CV细分方向交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~



△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

登录查看更多
0

相关内容

批标准化(批处理规范)是一种提高人工神经网络速度、性能和稳定性的技术。2015年的一篇论文引入了批标准化。它用于通过重新定心和重新缩放来规范化输入层。
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
【SIGIR2020-微软】知识图谱上的增强推荐推理
专知会员服务
75+阅读 · 2020年5月30日
专知会员服务
55+阅读 · 2020年3月16日
小于1MB的行人检测网络
极市平台
8+阅读 · 2019年9月23日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
对ResNet本质的一些思考
极市平台
26+阅读 · 2019年4月27日
后ResNet时代:SENet与SKNet
PaperWeekly
23+阅读 · 2019年3月25日
总结-空洞卷积(Dilated/Atrous Convolution)
极市平台
41+阅读 · 2019年2月25日
目标检测中图像增强,mixup 如何操作?
极市平台
30+阅读 · 2019年2月5日
从LeNet-5到DenseNet
AI研习社
9+阅读 · 2017年11月18日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Arxiv
6+阅读 · 2018年7月9日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
5+阅读 · 2018年1月30日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关资讯
小于1MB的行人检测网络
极市平台
8+阅读 · 2019年9月23日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
对ResNet本质的一些思考
极市平台
26+阅读 · 2019年4月27日
后ResNet时代:SENet与SKNet
PaperWeekly
23+阅读 · 2019年3月25日
总结-空洞卷积(Dilated/Atrous Convolution)
极市平台
41+阅读 · 2019年2月25日
目标检测中图像增强,mixup 如何操作?
极市平台
30+阅读 · 2019年2月5日
从LeNet-5到DenseNet
AI研习社
9+阅读 · 2017年11月18日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
Highway Networks For Sentence Classification
哈工大SCIR
4+阅读 · 2017年9月30日
Top
微信扫码咨询专知VIP会员