PyTorch 51.BatchNorm和Dropout层的不协调现象

会员服务 ·

PyTorch 51.BatchNorm和Dropout层的不协调现象

2022 年 2 月 19 日 极市平台

↑ 点击蓝字关注极市平台

作者 | 科技猛兽@知乎（已授权）

来源 | https://zhuanlan.zhihu.com/p/276154597

编辑 | 极市平台

极市导读

本文从model.eval()和torch.no_grad()开始讲起，细说batchnorm 和dropout 层在训练和测试时的差别，最后详细阐述BN和Dropout共同使用时会出现的问题。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

1 从model.eval()和torch.no_grad()开始讲起

这两个是不一样的：

model.eval() 主要是用在模型前向过程中，通过设置成eval 模型，告诉所有层你在 eval 模式，其中涉及到 batchnorm 和 dropout 层，这些层在训练和测试的表现是不一样的，比如 dropout 在训练中可能是0-1间的数，但在eval模式则为不使用dropout层。

torch.no_grad() 会关闭自动求导引擎的，因此能节省显存，和加速。

model.train() 用于在训练阶段，model.eval()用在验证和测试阶段，他们的区别是对于Dropout和Batch Normlization层的影响。在train模式下，dropout网络层会按照设定的参数p设置保留激活单元的概率（保留概率=p); batchnorm层会继续计算数据的mean和var等参数并更新。在val模式下，dropout层会让所有的激活单元都通过，而batchnorm层会停止计算和更新mean和var，直接使用在训练阶段已经学出的mean和var值。

#训练阶段
for epoch in range(max_epoch):
   model.train()
   dataiter = iter(dataloader)
   for step in range(step_per_epoch):
        data= next(dataiter) #假设包含有 images，label数据
        #  因为images ,labels是输入数据，我们可以使用with torch.no_grad()停止对他们的求导
        #   当然不使用也是可以的，使用的化可以加快gpu速度和减少占有
        with torch.no_grad():
             images = data[0]
             label = data[1]
#测试阶段
model.eval()
with  torch.no_grad():
      ....
#在测试阶段使用with torch.no_grad()可以对整个网络都停止自动求导，可以大大加快速度，也可以使用大的batch_size来测试
#当然，也可以不使用with torch.no_grad

2 细说batchnorm 和 dropout 层在训练和测试时的差别

Batch Normalization

BN，Batch Normalization，就是在深度神经网络训练过程中使得每一层神经网络的输入保持相近的分布。

BN训练和测试时的参数是一样的嘛？

对于BN，在训练时，是对每一批的训练数据进行归一化，也即用每一批数据的均值和方差。
而在测试时，比如进行一个样本的预测，就并没有batch的概念，因此，这个时候用的均值和方差是全量训练数据的均值和方差，这个可以通过移动平均法求得。
对于BN，当一个模型训练完成之后，它的所有参数都确定了，包括均值和方差，gamma和bata。

BN训练时为什么不用全量训练集的均值和方差呢？

因为在训练的第一个完整epoch过程中是无法得到输入层之外其他层全量训练集的均值和方差，只能在前向传播过程中获取已训练batch的均值和方差。那在一个完整epoch之后可以使用全量数据集的均值和方差嘛？
对于BN，是对每一批数据进行归一化到一个相同的分布，而每一批数据的均值和方差会有一定的差别，而不是用固定的值，这个差别实际上也能够增加模型的鲁棒性，也会在一定程度上减少过拟合。
但是一批数据和全量数据的均值和方差相差太多，又无法较好地代表训练集的分布，因此，BN一般要求将训练集完全打乱，并用一个较大的batch值，去缩小与全量数据的差别。

Dropout

Dropout 是在训练过程中以一定的概率的使神经元失活，即输出为0，以提高模型的泛化能力，减少过拟合。

Dropout 在训练和测试时都需要吗？

Dropout 在训练时采用，是为了减少神经元对部分上层神经元的依赖，类似将多个不同网络结构的模型集成起来，减少过拟合的风险。
而在测试时，应该用整个训练好的模型，因此不需要dropout。

Dropout 如何平衡训练和测试时的差异呢？

Importantly, the test scheme is quite different from the train.

During training, the information flow goes through the dynamic sub-network. At test time, the neural responses are scaled by the Dropout retain ratio.

At test time for Dropout, one should scale down the weights by multiplying them by a factor of p. As introduced in (Srivastava et al., 2014), another way to achieve the same effect is to scale up the retained activations by multiplying by** **at training time and not modifying the weights at test time.

Dropout，在训练时以一定的概率使神经元失活，实际上就是让对应神经元的输出为0
假设失活概率为 p ，就是这一层中的每个神经元都有p的概率失活，如下图的三层网络结构中，如果失活概率为0.5，则平均每一次训练有3个神经元失活，所以输出层每个神经元只有3个输入，而实际测试时是不会有dropout的，输出层每个神经元都有6个输入，这样在训练和测试时，输出层每个神经元的输入和的期望会有量级上的差异。
因此在训练时还要对第二层的输出数据除以（1-p）之后再传给输出层神经元，作为神经元失活的补偿，以使得在训练时和测试时每一层输入有大致相同的期望。