HAWQV3:Dyadic神经网络网络量化 (HAWQV3: Dyadic Neural Network Quantization) - 专知论文

会员服务 ·

0

TVM · UniFormer · INT8 · Neural Networks · Extensibility ·

2021 年 6 月 23 日

HAWQV3: Dyadic Neural Network Quantization

翻译：HAWQV3:Dyadic神经网络网络量化

Zhewei Yao,Zhen Dong,Zhangcheng Zheng,Amir Gholami,Jiali Yu,Eric Tan,Leyuan Wang,Qijing Huang,Yida Wang,Michael W. Mahoney,Kurt Keutzer

Current low-precision quantization algorithms often have the hidden cost of conversion back and forth from floating point to quantized integer values. This hidden cost limits the latency improvement realized by quantizing Neural Networks. To address this, we present HAWQV3, a novel mixed-precision integer-only quantization framework. The contributions of HAWQV3 are the following: (i) An integer-only inference where the entire computational graph is performed only with integer multiplication, addition, and bit shifting, without any floating point operations or even integer division; (ii) A novel hardware-aware mixed-precision quantization method where the bit-precision is calculated by solving an integer linear programming problem that balances the trade-off between model perturbation and other constraints, e.g., memory footprint and latency; (iii) Direct hardware deployment and open source contribution for 4-bit uniform/mixed-precision quantization in TVM, achieving an average speed up of $1.45\times$ for uniform 4-bit, as compared to uniform 8-bit for ResNet50 on T4 GPUs; and (iv) extensive evaluation of the proposed methods on ResNet18/50 and InceptionV3, for various model compression levels with/without mixed precision. For ResNet50, our INT8 quantization achieves an accuracy of $77.58\%$, which is $2.68\%$ higher than prior integer-only work, and our mixed-precision INT4/8 quantization can reduce INT8 latency by $23\%$ and still achieve $76.73\%$ accuracy. Our framework and the TVM implementation have been open sourced.

翻译：当前的低精度定量算法往往隐藏着从浮动点向浮动点、增量和位移的转换成本。这种隐藏成本限制了通过神经网络量化实现的延迟度改进。为了解决这个问题,我们提出了HAWQV3, 这是一种新颖的混合精度整形整形图度框架。 HAWQV3 的贡献如下:(一) 整个计算图仅以整数倍增量、增量和位移位方式进行转换,而没有任何浮动点操作或甚至整数分化;(二) 一种新型的硬件觉知混合精度精度精度方法,通过解决整数线性编程程序问题,平衡模型渗透和其他限制(例如,记忆足迹和通量)之间的交易。 (三) 直接部署硬件和开放源,用于4比整数倍的元整数倍增量、增量、增量和零比值平均四百分数的I-百分数精度精度精度精度精度计算方法。

0

相关内容

TVM

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

专知会员服务

59+阅读 · 2020年5月20日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【干货】模型不work怎么办？大神Josh Tobin141页PPT告诉你怎么改模型

【干货】模型不work怎么办？大神Josh Tobin141页PPT告诉你怎么改模型

专知会员服务

30+阅读 · 2019年11月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

《DeepGCNs: Making GCNs Go as Deep as CNNs》

《DeepGCNs: Making GCNs Go as Deep as CNNs》

专知会员服务

31+阅读 · 2019年10月17日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

深度卷积神经网络中的降采样

深度卷积神经网络中的降采样

极市平台

12+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

(TensorFlow)实时语义分割比较研究

(TensorFlow)实时语义分割比较研究

机器学习研究会

9+阅读 · 2018年3月12日

CNN模型压缩与加速算法综述

CNN模型压缩与加速算法综述

微信AI

6+阅读 · 2017年10月11日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

Dynamic Network Quantization for Efficient Video Inference

Arxiv

0+阅读 · 2021年8月23日

Hessian Aware Quantization of Spiking Neural Networks

Arxiv

0+阅读 · 2021年8月23日

On the Acceleration of Deep Neural Network Inference using Quantized Compressed Sensing

Arxiv

0+阅读 · 2021年8月23日

Quantization Backdoors to Deep Learning Models

Arxiv

0+阅读 · 2021年8月20日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

Training Graph Neural Networks with 1000 Layers

Arxiv

13+阅读 · 2021年6月14日

Zero-shot Adversarial Quantization

Arxiv

6+阅读 · 2021年3月30日

Text Level Graph Neural Network for Text Classification

Text Level Graph Neural Network for Text Classification

Arxiv

9+阅读 · 2019年10月8日

A Hierarchical Neural Network for Sequence-to-Sequences Learning

A Hierarchical Neural Network for Sequence-to-Sequences Learning

Arxiv

4+阅读 · 2018年11月23日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

VIP会员

文章信息

相关主题

Neural Networks

相关VIP内容

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

具有组合核的图神经网络，Graph Neural Networks with Composite Kernels

专知会员服务

59+阅读 · 2020年5月20日

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

【论文推荐】二值神经网络综述，Binary Neural Networks: A Survey

专知会员服务

53+阅读 · 2020年4月8日

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

【CMU】图卷积神经网络中的池化综述，Pooling in Graph Convolutional Neural Network

专知会员服务

46+阅读 · 2020年4月8日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【干货】模型不work怎么办？大神Josh Tobin141页PPT告诉你怎么改模型

【干货】模型不work怎么办？大神Josh Tobin141页PPT告诉你怎么改模型

专知会员服务

30+阅读 · 2019年11月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

《DeepGCNs: Making GCNs Go as Deep as CNNs》

《DeepGCNs: Making GCNs Go as Deep as CNNs》

专知会员服务

31+阅读 · 2019年10月17日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机战争时代的战时法：大国竞争中的区分原则、相称性原则与行动建议》最新75页

《构建强健军事力量的设计挑战：提升海军兵力支持系统效能的多分辨率建模方法》69页

正视无人机心理战：恐惧效应与战略反思

《精确反蜂群防御系统：三维运动探测与定向空爆拦截技术融合》最新24页

相关资讯

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

深度卷积神经网络中的降采样

深度卷积神经网络中的降采样

极市平台

12+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Deep Compression/Acceleration：模型压缩加速论文汇总

Deep Compression/Acceleration：模型压缩加速论文汇总

极市平台

14+阅读 · 2019年5月15日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

(TensorFlow)实时语义分割比较研究

(TensorFlow)实时语义分割比较研究

机器学习研究会

9+阅读 · 2018年3月12日

CNN模型压缩与加速算法综述

CNN模型压缩与加速算法综述

微信AI

6+阅读 · 2017年10月11日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

相关论文

Dynamic Network Quantization for Efficient Video Inference

Arxiv

0+阅读 · 2021年8月23日

Hessian Aware Quantization of Spiking Neural Networks

Arxiv

0+阅读 · 2021年8月23日

On the Acceleration of Deep Neural Network Inference using Quantized Compressed Sensing

Arxiv

0+阅读 · 2021年8月23日

Quantization Backdoors to Deep Learning Models

Arxiv

0+阅读 · 2021年8月20日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

Training Graph Neural Networks with 1000 Layers

Arxiv

13+阅读 · 2021年6月14日

Zero-shot Adversarial Quantization

Arxiv

6+阅读 · 2021年3月30日

Text Level Graph Neural Network for Text Classification

Text Level Graph Neural Network for Text Classification

Arxiv

9+阅读 · 2019年10月8日

A Hierarchical Neural Network for Sequence-to-Sequences Learning

A Hierarchical Neural Network for Sequence-to-Sequences Learning

Arxiv

4+阅读 · 2018年11月23日

HAQ: Hardware-Aware Automated Quantization

HAQ: Hardware-Aware Automated Quantization

Arxiv

6+阅读 · 2018年11月21日

微信扫码咨询专知VIP会员