如何训练你的ResNet（三）：正则化

2018 年 11 月 13 日 论智

来源：Myrtle

编译：Bing

“如何用一个GPU实现八个GPU的水平。”

在上一篇文章结尾，我们在256秒内将模型在CIFAR10上训练到94%的测试精确度。相比之下，基于单个V100 GPU上100%的计算效率，初始基线为341秒，而我们理想中的40秒的目标略微不切实际。今天，我们将定一个适中的目标——超越fast.ai在DAWNBench中的获胜记录，其中使用了8个GPU，训练了174秒。我们会继续使用单个GPU，因为距离使用所有FLOP，我们还离得很远。

对于目前的设置，我们能得对所需要的时间进行大致对比，我们选择性地删除了计算中的某些部分，并运行了剩下部分。例如，我们可以现在GPU上预装随机训练数据，省去数据下载和迁移的时间。我们还能删除优化器步骤和ReLU以及批规范层，只留下卷积层。如果这样做，不同batch size所用时间如下：

这里有几点明显特征。首先，批标准化占用了很大一部分时间。其次，卷积的主要部分也占用了超过一半的计算时间，比我们预计的在100%计算力上用掉一半的时间还要长。第三，优化器和数据下载步骤并不是主要问题。

在GPU专家Graham Hazel的帮助下，我们查看了一些配置文件，迅速发现了批标准化的一些问题——用PyTorch（0.4版本）将模型转换为半精度的默认方法会触发一个慢速代码路径，该路径不使用优化的CuDNN例程。如果我们将批标准化的权重转换回单精度，那么快速代码就被激发，所用时间看起来就更正常了：

经过改进，在35个epoch内训练达到94%的精度只需要186秒，越来越接近我们的目标了！

除此之外，还有很多方法能改进训练，将时间缩短至174秒。GPU代码还可以进一步优化，例如，当前的激活数据以NCHW格式存储，但TensorBoard中的快速CuDNN卷积例程希望数据遵循NHWC的顺序。所以，在卷积前后执行前向和后向转置需要占用很大一部分运行时间。由于PyTorch 0.4不支持原生NHWC计算，并且在其他框架中似乎没有成熟的支持，这一问题会在之后的文章中重点关注。

将训练时间减少到30个epoch，时间也会减少到161秒，轻松打破目前的记录。但如果仅仅加速基准学习速率，在5次运行中没有能达到94%的案例。

在CIFAR10上一中有效的简单正则化策略就是“Cutout”正则化，它可以清除每张训练图片中的随机子集。我们在训练图像选取随机8×8方形子集进行实验，除此之外还有标准的数据增强，用于填补、裁剪、随机翻转。

在基线35个epoch训练后的结果都达到了94%的精确度，其中还有一次达到了94.3%，这也是在基线上的小进步。对学习率进行手动优化后，运行精度达到了94.5%（将峰值学习速率提前，用简单的线性衰减替换衰减相位）。

如果我们在30个epoch上提高学习速率，4/5的运行次数会达到94%的精度，中间值为94.13%。我们可以将batch size提高到768，4/5也能达到94%，中值为94.06%。当batch size为512时，30epoch运行时间为161秒，当batch size为768时，时间为154秒，所有都只在一个GPU上，打破了我们的目标！折线图如下：

现在我们达到了文章开头设定的目标，想要复现这一过程，可以点击链接查看代码：github.com/davidcpage/cifar10-fast/blob/master/experiments.ipynb。不过我们的新纪录应该能很容易打破，首先，我们一直将单个GPU的计算能力维持在25%以下，之后还有对其优化的方法。第二，可以用相关技术减少训练epoch，例如Mixup正则化和AdamW训练。我们尚未研究如何对参数平均以加速最终收敛，如果我们打算在推理时做更多工作，则可以使用测试时间增强来进一步缩短训练时间。还有人提出在更大的网络中进行小于20个epoch的实验训练，结合fast.ai的技术，进一步研究也许会发现更有趣的结果。

但是，目前我们将不继续探索这些未开发的途径，而是重点观察目前我们一直使用的网络，就会发现意想不到的收获。

地址：www.myrtle.ai/2018/09/24/howtotrainyourresnet_3