用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络,动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同,它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode),并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示,Momentum ResNets可以学习任何线性映射到一个倍增因子,而ResNets不能。在优化设置的学习中,需要收敛到一个不动点,我们从理论上和经验上证明了我们的方法成功,而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度,但占用的内存要小得多,并展示了预训练的Momentum ResNets对模型的微调是有前途的。
https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273