Low-bit quantization of network weights and activations can drastically reduce the memory footprint, complexity, energy consumption and latency of Deep Neural Networks (DNNs). However, low-bit quantization can also cause a considerable drop in accuracy, in particular when we apply it to complex learning tasks or lightweight DNN architectures. In this paper, we propose a training procedure that relaxes the low-bit quantization. We call this procedure \textit{DNN Quantization with Attention} (DQA). The relaxation is achieved by using a learnable linear combination of high, medium and low-bit quantizations. Our learning procedure converges step by step to a low-bit quantization using an attention mechanism with temperature scheduling. In experiments, our approach outperforms other low-bit quantization techniques on various object recognition benchmarks such as CIFAR10, CIFAR100 and ImageNet ILSVRC 2012, achieves almost the same accuracy as a full precision DNN, and considerably reduces the accuracy drop when quantizing lightweight DNN architectures.


翻译:网络重量和激活的低位量化可以大幅降低深神经网络(DNN)的记忆足迹、复杂性、能量消耗和延迟度。然而,低位量化也可以导致精确度大幅下降,特别是当我们将其应用到复杂的学习任务或轻量的 DNN 结构时。在本文中,我们建议了一个能放松低位量化的培训程序。我们称这个程序为\ textit{DNN 量度化并注意(DQA ) 。通过使用高、中、低位四分制的可学习线性组合来实现放松。我们的学习程序会一步地集中到低位量化,使用温度表的注意机制。在实验中,我们的方法在各种物体识别基准上比其他低位量化技术(如CIFAR10, CIFAR100 和图像网 ILSVRC 2012 ) 取得了与完全精确的 DNN(DN)几乎相同的精确度,并在对轻量 DNN 结构进行四分时大大降低了精度下降的精度。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
专知会员服务
25+阅读 · 2020年2月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
1+阅读 · 2021年5月15日
Arxiv
3+阅读 · 2020年9月30日
Attention Network Robustification for Person ReID
Arxiv
5+阅读 · 2019年10月15日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关资讯
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
相关论文
Arxiv
1+阅读 · 2021年5月15日
Arxiv
3+阅读 · 2020年9月30日
Attention Network Robustification for Person ReID
Arxiv
5+阅读 · 2019年10月15日
Arxiv
3+阅读 · 2018年10月25日
Arxiv
19+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员