The increasing computational requirements of deep neural networks (DNNs) have led to significant interest in obtaining DNN models that are sparse, yet accurate. Recent work has investigated the even harder case of sparse training, where the DNN weights are, for as much as possible, already sparse to reduce computational costs during training. Existing sparse training methods are mainly empirical and often have lower accuracy relative to the dense baseline. In this paper, we present a general approach called Alternating Compressed/DeCompressed (AC/DC) training of DNNs, demonstrate convergence for a variant of the algorithm, and show that AC/DC outperforms existing sparse training methods in accuracy at similar computational budgets; at high sparsity levels, AC/DC even outperforms existing methods that rely on accurate pre-trained dense models. An important property of AC/DC is that it allows co-training of dense and sparse models, yielding accurate sparse-dense model pairs at the end of the training process. This is useful in practice, where compressed variants may be desirable for deployment in resource-constrained settings without re-doing the entire training flow, and also provides us with insights into the accuracy gap between dense and compressed models.


翻译:深神经网络(DNN)的计算要求不断提高,导致人们对获得分散但准确的DNN模型的兴趣极大。最近的工作调查了更困难的少许培训案例,因为DNN的重量在培训期间尽可能少,以降低计算成本。现有的少许培训方法主要是经验性的,往往比密集基线的精确度低。在本文中,我们提出了一个一般方法,称为“交替压缩/压缩(AC/DC)” DNN培训,表明对一种变式算法的趋同,并表明AC/DC在类似计算预算的精确度方面比现有的少许培训方法要好;在高宽度水平上,AC/DC甚至比现有方法要差,而后者依赖精确的事先培训密度模型。AC/DC的一个重要特征是,它允许对密度和稀薄的模型进行联合培训,在培训过程结束时产生精确的稀薄模型。这在实践上是有用的,在资源紧凑的环境下,压缩的变异体可能适合在资源紧凑环境中部署,而没有再精确度地提供我们整个模型的精确度。

0
下载
关闭预览

相关内容

【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
29+阅读 · 2019年10月18日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月25日
Arxiv
0+阅读 · 2021年8月20日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年8月25日
Arxiv
0+阅读 · 2021年8月20日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2017年12月14日
Top
微信扫码咨询专知VIP会员