The training of deep residual neural networks (ResNets) with backpropagation has a memory cost that increases linearly with respect to the depth of the network. A way to circumvent this issue is to use reversible architectures. In this paper, we propose to change the forward rule of a ResNet by adding a momentum term. The resulting networks, momentum residual neural networks (Momentum ResNets), are invertible. Unlike previous invertible architectures, they can be used as a drop-in replacement for any existing ResNet block. We show that Momentum ResNets can be interpreted in the infinitesimal step size regime as second-order ordinary differential equations (ODEs) and exactly characterize how adding momentum progressively increases the representation capabilities of Momentum ResNets. Our analysis reveals that Momentum ResNets can learn any linear mapping up to a multiplicative factor, while ResNets cannot. In a learning to optimize setting, where convergence to a fixed point is required, we show theoretically and empirically that our method succeeds while existing invertible architectures fail. We show on CIFAR and ImageNet that Momentum ResNets have the same accuracy as ResNets, while having a much smaller memory footprint, and show that pre-trained Momentum ResNets are promising for fine-tuning models.


翻译:深残余神经网络(ResNets)的后向反向分析培训的记忆成本随着网络深度的深度而直线增长。 绕过这一问题的一个方法就是使用可逆结构。 在本文中, 我们提议通过增加一个动力术语来改变ResNet的前瞻性规则。 由此形成的网络、 动力残留神经网络( Momentum ResNets)是不可倒置的。 与以前不可倒置的结构不同, 它们可以用作任何现有的ResNet块的倒置替代物。 我们显示, Momentum ResNets可以在无限的步进规模制度中被解释为二级普通差异方程式(ODEs), 并准确地描述如何增加动力以渐进方式提高Momentum ResNets的代表能力。 我们的分析显示, Momentum ResNetsNet可以学习任何直线图, 升至多复制性因素, 而ResNets则无法。 在学习优化设置时, 需要与固定点的趋同点, 我们从理论上和实证地表明, 我们的方法在现有的可倒置结构失败时会成功。 我们展示了CFAR和图像网络的模型,, 我们展示了更精确的模型显示, Resum ResNet 显示, ResNet resmarmentalmentalmentalment 显示, shalmentalmentalmentalmentalmentalments

0
下载
关闭预览

相关内容

动量方法 (Polyak, 1964) 旨在加速学习,特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。 动量算法积累了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
专知会员服务
15+阅读 · 2020年7月27日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
6+阅读 · 2018年10月3日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关论文
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
6+阅读 · 2018年10月3日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Top
微信扫码咨询专知VIP会员