Convolutional Neural Networks (CNNs) have proven to be a powerful state-of-the-art method for image classification tasks. One drawback however is the high computational complexity and high memory consumption of CNNs which makes them unfeasible for execution on embedded platforms which are constrained on physical resources needed to support CNNs. Quantization has often been used to efficiently optimize CNNs for memory and computational complexity at the cost of a loss of prediction accuracy. We therefore propose a method to optimally quantize the weights, biases and activations of each layer of a pre-trained CNN while controlling the loss in inference accuracy to enable quantized inference. We quantize the 32-bit floating-point precision parameters to low bitwidth fixed-point representations thereby finding optimal bitwidths and fractional offsets for parameters of each layer of a given CNN. We quantize parameters of a CNN post-training without re-training it. Our method is designed to quantize parameters of a CNN taking into account how other parameters are quantized because ignoring quantization errors due to other quantized parameters leads to a low precision CNN with accuracy losses of up to 50% which is far beyond what is acceptable. Our final method therefore gives a low precision CNN with accuracy losses of less than 1%. As compared to a method used by commercial tools that quantize all parameters to 8-bits, our approach provides quantized CNN with averages of 53% lower memory consumption and 77.5% lower cost of executing multiplications for the two CNNs trained on the four datasets that we tested our work on. We find that layer-wise quantization of parameters significantly helps in this process.


翻译:在图像分类任务中, Convolution Neal 网络(CNNs) 已被证明是一个最先进的最先进的图像分类方法。然而,一个缺点是CNN的计算复杂度和存储耗用率高,使得它们无法在内嵌平台上执行,这些平台对支持CNN所需的实物资源有限制。量化常常被用来高效率地优化CNN的记忆和计算复杂性,以牺牲预测准确度。因此,我们提出了一个方法,以最佳的方式对经过预先训练的CNN的每层的重量、偏向和启动进行定量分析。5 在控制推算精度误差的准确度以允许量化的多度计算。我们将32位浮点精确度参数量化为低的固定点代表点,从而找到给给给给定CNN的每层参数最佳的位宽度和分数偏移,而无需再培训。我们的方法是量化CNN的参数,在考虑其他参数如何被四分解,因为忽略了计算精度误度的推误度,因为忽略了CNNCN的精度误度误度误度误度,因此比了50号的精确度的精确度的精确度的精确度,因此导致了所有的精确度损失的精确度损失的精确度为最低。

0
下载
关闭预览

相关内容

CC在计算复杂性方面表现突出。它的学科处于数学与计算机理论科学的交叉点,具有清晰的数学轮廓和严格的数学格式。官网链接:https://link.springer.com/journal/37
系列教程GNN-algorithms之六:《多核卷积拓扑图—TAGCN》
专知会员服务
49+阅读 · 2020年8月8日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关资讯
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员