INT8 quantization has become one of the standard techniques for deploying convolutional neural networks (CNNs) on edge devices to reduce the memory and computational resource usages. By analyzing quantized performances of existing mobile-target network architectures, we can raise an issue regarding the importance of network architecture for optimal INT8 quantization. In this paper, we present a new network architecture search (NAS) procedure to find a network that guarantees both full-precision (FLOAT32) and quantized (INT8) performances. We first propose critical but straightforward optimization method which enables quantization-aware training (QAT) : floating-point statistic assisting (StatAssist) and stochastic gradient boosting (GradBoost). By integrating the gradient-based NAS with StatAssist and GradBoost, we discovered a quantization-efficient network building block, Frost bottleneck. Furthermore, we used Frost bottleneck as the building block for hardware-aware NAS to obtain quantization-efficient networks, FrostNets, which show improved quantization performances compared to other mobile-target networks while maintaining competitive FLOAT32 performance. Our FrostNets achieve higher recognition accuracy than existing CNNs with comparable latency when quantized, due to higher latency reduction rate (average 65%).


翻译:通过分析现有移动目标网络架构的量化性能,我们可以提出网络架构对优化INT8量化的重要性问题。在本文中,我们提出了一个新的网络架构搜索(NAS)程序,以找到一个既能保证完全精度(FLOAT32)又能保证量化(INTE8)性能的网络。我们首先提出了关键但直截了当的优化优化方法,使量化(QAT)培训(QAT)得以进行:浮点统计协助(Statassist)和振动梯度提升(GradBoost),通过将基于梯度的NAS与Statassist和GradBoost相结合,我们发现了一个量化效率高的网络建筑块Frost瓶。此外,我们用Froft瓶(Flock瓶)作为硬件认知高效网络的建筑块,以获得量化效率网络(QAT):浮点统计(QAT):浮点统计协助(Statassist)和振动梯度梯度梯度提升(GradBoost)。通过将梯度率比其他移动目标更高的升级化(Frestalestalityality)网络取得更高的水平,同时显示比其他移动目标降低。

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
29+阅读 · 2020年12月14日
专知会员服务
60+阅读 · 2020年3月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
0+阅读 · 2021年1月17日
Arxiv
6+阅读 · 2020年10月8日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
Top
微信扫码咨询专知VIP会员