Deep neural networks (DNNs) are effective in solving many real-world problems. Larger DNN models usually exhibit better quality (e.g., accuracy) but their excessive computation results in long training and inference time. Model sparsification can reduce the computation and memory cost while maintaining model quality. Most existing sparsification algorithms unidirectionally remove weights, while others randomly or greedily explore a small subset of weights in each layer. The inefficiency of the algorithms reduces the achievable sparsity level. In addition, many algorithms still require pre-trained dense models and thus suffer from large memory footprint and long training time. In this paper, we propose a novel scheduled grow-and-prune (GaP) methodology without pre-training the dense models. It addresses the shortcomings of the previous works by repeatedly growing a subset of layers to dense and then pruning back to sparse after some training. Experiments have shown that such models can match or beat the quality of highly optimized dense models at 80% sparsity on a variety of tasks, such as image classification, objective detection, 3D object part segmentation, and translation. They also outperform other state-of-the-art (SOTA) pruning methods, including pruning from pre-trained dense models. As an example, a 90% sparse ResNet-50 obtained via GaP achieves 77.9% top-1 accuracy on ImageNet, improving the SOTA results by 1.5%.


翻译:深心内网( DNN) 能够有效解决许多真实世界的问题。 大的 DNN 模型通常显示质量更高( 准确性), 但其过量计算导致长期培训和推断时间过长。 模型垃圾化可以降低计算和记忆成本, 同时保持模型质量。 大部分现有的垃圾化算法单向去除重量, 而另一些则随机或贪婪地探索每一层的一小部分重量。 算法效率低, 降低了可实现的宽度水平。 此外, 许多算法仍然需要经过预先训练的密集模型, 并因此遭受大量记忆足迹和长时间的培训时间。 在本文件中, 我们提出一个新的预定的生长- 发源( GaP) 方法, 无需对密度模型进行预先训练。 它解决了以前工作的缺点, 反复增加一组层到密度, 然后在一些培训后又又又回溯到稀薄。 实验显示, 这种模型可以匹配或击败高精密密度模型的质量, 80 % 的深度模型在各种任务上, 例如图像分类、 客观检测、 3D- 目标- TA- train- trainal- train the a ex- presmission- pexfain resmilling prestical resmation restical ex

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
60+阅读 · 2020年3月19日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
TensorFlow 2.0 分布式训练
TensorFlow
8+阅读 · 2020年1月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2021年8月18日
VIP会员
相关VIP内容
相关资讯
TensorFlow 2.0 分布式训练
TensorFlow
8+阅读 · 2020年1月19日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Top
微信扫码咨询专知VIP会员