使用Batch Normalization折叠来加速模型推理

会员服务 ·

使用Batch Normalization折叠来加速模型推理

2020 年 11 月 16 日 深度学习自然语言处理

作者：Nathan Hubens

编译：ronghuaiyang

来自：AI公园

导读

如何去掉batch normalization层来加速神经网络。

介绍

Batch Normalization是将各层的输入进行归一化，使训练过程更快、更稳定的一种技术。在实践中，它是一个额外的层，我们通常添加在计算层之后，在非线性之前。它包括两个步骤：

首先减去其平均值，然后除以其标准差
进一步通过γ缩放，通过β偏移，这些是batch normalization层的参数，当网络不需要数据的时候，均值为0、标准差为1。

Batch normalization在神经网络的训练中具有较高的效率，因此得到了广泛的应用。但它在推理的时候有多少用处呢？

一旦训练结束，每个Batch normalization层都拥有一组特定的γ和β，还有μ和σ，后者在训练过程中使用指数加权平均值进行计算。这意味着在推理过程中，Batch normalization就像是对上一层（通常是卷积）的结果进行简单的线性转换。

由于卷积也是一个线性变换，这也意味着这两个操作可以合并成一个单一的线性变换！这将删除一些不必要的参数，但也会减少推理时要执行的操作数量。

在实践中怎么做？

用一点数学知识，我们可以很容易地重新对卷积进行排列来处理batch normalization。提醒一下，对一个输入x进行卷积之后再进行batch normalization的运算可以表示为：

那么，如果我们重新排列卷积的W和b，考虑batch normalization的参数，如下：

我们可以去掉batch normalization层，仍然得到相同的结果！

注意：通常，在batch normalization层之前的层中是没有bias的，因为这是无用的，也是对参数的浪费，因为任何常数都会被batch normalization抵消掉。

这样做的效果怎样？

我们将尝试两种常见的架构：

使用batch norm的VGG16
ResNet50

为了演示，我们使用ImageNet dataset和PyTorch。两个网络都将训练5个epoch，看看参数数量和推理时间的变化。

1. VGG16

我们从训练VGG16 5个epoch开始(最终的准确性并不重要)：

参数的数量：

单个图像的初始推理时间为：

如果使用了batch normalization折叠，我们有：

以及：

8448个参数被去掉了，更好的是，几乎快了0.4毫秒！最重要的是，这是完全无损的，在性能方面绝对没有变化：

让我们看看它在Resnet50的情况下是怎么样的！

2. Resnet50

同样的，我们开始训练它5个epochs：

初始参数量为：

推理时间为：

使用batch normalization折叠后，有：

和：

现在，我们有26,560的参数被移除，更惊讶的hi，推理时间减少了1.5ms，性能一点也没降。

英文原文：https://towardsdatascience.com/speed-up-inference-with-batch-normalization-folding-8a45a83a89d8

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！

后台回复【五件套】

下载二：南大模式识别PPT

后台回复【南大模式识别】

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

整理不易，还望给个在看！

登录查看更多

相关内容

批量规范化

关注 0

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

Graph Normalization (GN)：为图神经网络学习一个有效的图归一化

专知会员服务

16+阅读 · 2020年9月28日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

18+阅读 · 2020年3月3日

【ICLR-2020】网络反卷积，NETWORK DECONVOLUTION

专知会员服务

39+阅读 · 2020年2月21日

如何训练你的ResNet（三）：正则化

论智

5+阅读 · 2018年11月13日

一位ML工程师构建深度神经网络的实用技巧

AI100

11+阅读 · 2018年9月12日

从零开始深度学习：dropout与正则化

数萃大数据

7+阅读 · 2018年7月22日

一文简述ResNet及其多种变体

机器之心

23+阅读 · 2018年4月22日

【动态】何恺明团队最新力作：群组归一化（Group Normalization）

GAN生成式对抗网络

8+阅读 · 2018年3月23日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

【干货】Batch Normalization: 如何更快地训练深度神经网络

专知

13+阅读 · 2018年3月6日

如何用张量分解加速深层神经网络？（附代码）

AI研习社

11+阅读 · 2018年3月2日

计算机视觉这一年：2017 CV技术报告Plus之卷积架构、数据集与新趋势

机器之心

6+阅读 · 2017年11月27日

教程 | 如何估算深度神经网络的最优学习率

机器之心

3+阅读 · 2017年11月17日

Ordinal Monte Carlo Tree Search

Arxiv

0+阅读 · 2021年1月26日

Is Phase Shift Keying Optimal for Channels with Phase-Quantized Output?

Arxiv

0+阅读 · 2021年1月25日

Distributed Graph Convolutional Networks

Arxiv

19+阅读 · 2020年7月13日

Resolution Adaptive Networks for Efficient Inference

Arxiv

5+阅读 · 2020年3月16日

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Graph Convolutional Networks for Text Classification

Arxiv

12+阅读 · 2018年9月15日

Quantization Mimic: Towards Very Tiny CNN for Object Detection

Arxiv

5+阅读 · 2018年9月13日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

HyperDense-Net: A hyper-densely connected CNN for multi-modal image segmentation

Arxiv

6+阅读 · 2018年4月9日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

VIP会员