Network pruning is an effective approach to reduce network complexity without performance compromise. Existing studies achieve the sparsity of neural networks via time-consuming weight tuning or complex search on networks with expanded width, which greatly limits the applications of network pruning. In this paper, we show that high-performing and sparse sub-networks without the involvement of weight tuning, termed "lottery jackpots", exist in pre-trained models with unexpanded width. For example, we obtain a lottery jackpot that has only 10% parameters and still reaches the performance of the original dense VGGNet-19 without any modifications on the pre-trained weights. Furthermore, we observe that the sparse masks derived from many existing pruning criteria have a high overlap with the searched mask of our lottery jackpot, among which, the magnitude-based pruning results in the most similar mask with ours. Based on this insight, we initialize our sparse mask using the magnitude pruning, resulting in at least 3x cost reduction on the lottery jackpot search while achieves comparable or even better performance. Specifically, our magnitude-based lottery jackpot removes 90% weights in the ResNet-50, while easily obtains more than 70% top-1 accuracy using only 10 searching epochs on ImageNet.


翻译:网络运行是一种有效的方法,可以降低网络复杂性,而不会影响业绩。 现有的研究通过时间耗重的重量调整或对宽度扩大的网络进行复杂搜索,实现了神经网络的广度,这极大地限制了网络运行的应用。 在本文中,我们表明,在未经开发宽度未变宽的预培训模型中,存在着高性能和稀散的子网络,没有重力调,称为“彩虹彩虹彩虹”,在未经开发的宽度未变宽度的预培训模式中,我们获得的是一张彩虹头,它只有10%的参数,仍然达到原始密集的VGGGNet-19的性能,而未对预先培训的重量作任何修改。此外,我们观察到,从许多现有裁剪裁标准中得来的稀薄面具与我们彩虹头罩的搜索面具有很大重叠。 其中,在与我们最相似的遮罩中,基于规模的彩虹彩虹彩虹,我们利用规模裁剪裁剪裁,导致彩票搜索至少减少3x成本,同时取得类似或甚至更好的性能。 。 具体而言,我们基于重量的彩虹彩虹彩票的彩虹头只只只只只只只去除只只只只只消除了70-50的重量,而在Res搜索中,而仅获得10-100的图像精精精度只。

0
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2021年8月4日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
19+阅读 · 2021年4月4日
专知会员服务
23+阅读 · 2020年9月8日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
36+阅读 · 2020年7月5日
【CVPR2020】L2 ^GCN:图卷积网络的分层学习高效训练
专知会员服务
38+阅读 · 2020年3月31日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
已删除
将门创投
5+阅读 · 2019年10月29日
BERT 瘦身之路:Distillation,Quantization,Pruning
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Efficient Transformer for Single Image Super-Resolution
Arxiv
0+阅读 · 2021年10月28日
Arxiv
8+阅读 · 2020年6月15日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年10月29日
BERT 瘦身之路:Distillation,Quantization,Pruning
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员