Deep neural networks have been applied in many applications exhibiting extraordinary abilities in the field of computer vision. However, complex network architectures challenge efficient real-time deployment and require significant computation resources and energy costs. These challenges can be overcome through optimizations such as network compression. Network compression can often be realized with little loss of accuracy. In some cases accuracy may even improve. This paper provides a survey on two types of network compression: pruning and quantization. Pruning can be categorized as static if it is performed offline or dynamic if it is performed at run-time. We compare pruning techniques and describe criteria used to remove redundant computations. We discuss trade-offs in element-wise, channel-wise, shape-wise, filter-wise, layer-wise and even network-wise pruning. Quantization reduces computations by reducing the precision of the datatype. Weights, biases, and activations may be quantized typically to 8-bit integers although lower bit width implementations are also discussed including binary neural networks. Both pruning and quantization can be used independently or combined. We compare current techniques, analyze their strengths and weaknesses, present compressed network accuracy results on a number of frameworks, and provide practical guidance for compressing networks.


翻译:深心神经网络已被应用于在计算机视觉领域表现出非凡能力的许多应用中。然而,复杂的网络结构对高效实时部署提出了挑战,需要大量的计算资源和能源成本。这些挑战可以通过网络压缩等优化来克服。网络压缩通常可以实现,但准确性可能略微降低。在某些情况下,精确性甚至可以提高。本文对两种类型的网络压缩进行了调查:修剪和量化。如果在运行时进行运行,在离线或动态情况下,普鲁宁可以被归类为静态。我们比较修剪技术和描述用于删除冗余计算的标准。我们讨论在元素、频道、形状、过滤器、分层甚至网络运行方面的交易。量化通过降低数据型的精确度,减少了计算数量。判断、偏差和激活一般可以四分化为八位整数,但讨论时宽度较低的实施情况,包括二进制神经网络。可以独立或合并地使用裁剪裁和四分化两种方法。我们比较当前技术的精确性框架,分析其精度和压缩网络的精度。

1
下载
关闭预览

相关内容

多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
181+阅读 · 2020年4月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
3+阅读 · 2017年11月3日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Arxiv
37+阅读 · 2021年2月10日
Arxiv
35+阅读 · 2021年1月27日
Compression of Deep Learning Models for Text: A Survey
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
VIP会员
相关VIP内容
多标签学习的新趋势(2020 Survey)
专知会员服务
41+阅读 · 2020年12月6日
【阿尔托大学】图神经网络,Graph Neural Networks,附60页ppt
专知会员服务
181+阅读 · 2020年4月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
已删除
将门创投
3+阅读 · 2017年11月3日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员