We present a differentiable joint pruning and quantization (DJPQ) scheme. We frame neural network compression as a joint gradient-based optimization problem, trading off between model pruning and quantization automatically for hardware efficiency. DJPQ incorporates variational information bottleneck based structured pruning and mixed-bit precision quantization into a single differentiable loss function. In contrast to previous works which consider pruning and quantization separately, our method enables users to find the optimal trade-off between both in a single training procedure. To utilize the method for more efficient hardware inference, we extend DJPQ to integrate structured pruning with power-of-two bit-restricted quantization. We show that DJPQ significantly reduces the number of Bit-Operations (BOPs) for several networks while maintaining the top-1 accuracy of original floating-point models (e.g., 53x BOPs reduction in ResNet18 on ImageNet, 43x in MobileNetV2). Compared to the conventional two-stage approach, which optimizes pruning and quantization independently, our scheme outperforms in terms of both accuracy and BOPs. Even when considering bit-restricted quantization, DJPQ achieves larger compression ratios and better accuracy than the two-stage approach.


翻译:我们提出了一个不同的联合运行和量化( DJPQ) 方案。 我们将神经网络压缩作为基于梯度的优化联合问题框架, 将模型的运行和量化自动交换, 以便实现硬件效率。 DJPQ 将基于结构结构的运行和混合比位精确度的变异信息瓶颈数纳入一个不同的损失函数。 与以前考虑单独运行和量化的工程相比, 我们的方法使用户能够在单一的培训程序中找到两种方法的最佳取舍。 为了使用效率更高的硬件推断方法, 我们扩展 DJPQ, 将结构化的运行与2位限制量的量化自动交换。 我们显示, DJPQ 在保持原始浮点模型的顶级和顶级精度( 例如, 在图像网络的ResNet18中减少53x BOPs, 在移动网络中减少43x)。 与常规的两阶段方法相比, 在独立地实现双级打印和四级化的精确度的精确度时, 我们显示, DPQQ会大幅减少一些网络的位操作数量, 同时保持原始浮点模型的顶级( 例如, ResNet18 方法减少43x NetV2x)。

1
下载
关闭预览

相关内容

专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
BERT 瘦身之路:Distillation,Quantization,Pruning
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年5月28日
Arxiv
9+阅读 · 2021年4月8日
HAQ: Hardware-Aware Automated Quantization
Arxiv
6+阅读 · 2018年11月21日
VIP会员
相关VIP内容
专知会员服务
22+阅读 · 2021年4月10日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
【新书】Python编程基础,669页pdf
专知会员服务
194+阅读 · 2019年10月10日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
相关资讯
BERT 瘦身之路:Distillation,Quantization,Pruning
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员