批处理归一化是大多数图像分类模型的关键组成部分,但由于其对批处理大小的依赖和实例之间的交互,因此它有许多不必要的特性。尽管最近的工作已经成功地训练了没有归一化层的深度ResNets,但是这些模型与最好的归一化网络的测试精度不匹配,并且对于大的学习率或强的数据增强常常是不稳定的。在这项工作中,我们开发了一种自适应梯度裁剪技术来克服这些不稳定性,并设计了一种显著改进的类无归一化的重网。我们的较小的模型具有与EfficientNet-B7在ImageNet上的相匹配的测试精度,,而训练速度高达8.7倍,我们最大的模型达到了最新的最先进的最高精度86.5%。此外,在对3亿张标记图像数据集进行大规模预训练后,在ImageNet上进行微调时,无归一化模型获得了比批量归一化模型显著更好的性能,我们最好的模型获得了89.2%的精度。我们的代码可以在这个https URL deepmind-research/tree/master/nfnets上找到。
https://www.zhuanzhi.ai/paper/926b8f078a97f904719d3d70cc69d30f