We propose a learning framework based on stochastic Bregman iterations to train sparse neural networks with an inverse scale space approach. We derive a baseline algorithm called LinBreg, an accelerated version using momentum, and AdaBreg, which is a Bregmanized generalization of the Adam algorithm. In contrast to established methods for sparse training the proposed family of algorithms constitutes a regrowth strategy for neural networks that is solely optimization-based without additional heuristics. Our Bregman learning framework starts the training with very few initial parameters, successively adding only significant ones to obtain a sparse and expressive network. The proposed approach is extremely easy and efficient, yet supported by the rich mathematical theory of inverse scale space methods. We derive a statistically profound sparse parameter initialization strategy and provide a rigorous stochastic convergence analysis of the loss decay and additional convergence proofs in the convex regime. Using only 3.4% of the parameters of ResNet-18 we achieve 90.2% test accuracy on CIFAR-10, compared to 93.6% using the dense network. Our algorithm also unveils an autoencoder architecture for a denoising task. The proposed framework also has a huge potential for integrating sparse backpropagation and resource-friendly training.


翻译:我们提出一个基于Stochestic Bregman 迭代的学习框架,以培养具有反向空间方法的稀有神经网络。我们提出一个叫LinBreg的基线算法,即使用动力加速版的LinBreg和AdaBreg的基线算法,这是对亚当算法的一种Bregman化的概括化。与分散培训的既定方法不同,拟议的算法构成一个纯粹以优化为基础的神经网络的再增长战略,没有额外的超常理论。我们的Bregman学习框架以极少的初步参数开始培训,而仅增加重要的参数,以获得稀疏和直观的网络。拟议的方法非常简单和高效,但得到了反向空间方法丰富的数学理论的支持。我们提出了统计上深度的稀疏杂参数初始化战略,对损失衰变现和 convex 系统中的其他趋同证据进行了严格的分析。我们只使用了ResNet-18参数的3.4%,我们实现了对CIFAR-10的90.2%的测试精确度,而使用密度网络则达到93.6%。我们的算法还揭示了一种用于大规模解析和变现资源任务。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Arxiv
1+阅读 · 2021年6月30日
Arxiv
0+阅读 · 2021年6月29日
Arxiv
11+阅读 · 2021年3月25日
Arxiv
8+阅读 · 2021年2月19日
Arxiv
7+阅读 · 2020年6月29日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Arxiv
1+阅读 · 2021年6月30日
Arxiv
0+阅读 · 2021年6月29日
Arxiv
11+阅读 · 2021年3月25日
Arxiv
8+阅读 · 2021年2月19日
Arxiv
7+阅读 · 2020年6月29日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Top
微信扫码咨询专知VIP会员