The deployment of widely used Transformer architecture is challenging because of heavy computation load and memory overhead during inference, especially when the target device is limited in computational resources such as mobile or edge devices. Quantization is an effective technique to address such challenges. Our analysis shows that for a given number of quantization bits, each block of Transformer contributes to translation quality and inference computations in different manners. Moreover, even inside an embedding block, each word presents vastly different contributions. Correspondingly, we propose a mixed precision quantization strategy to represent Transformer weights by an extremely low number of bits (e.g., under 3 bits). For example, for each word in an embedding block, we assign different quantization bits based on statistical property. Our quantized Transformer model achieves 11.8$\times$ smaller model size than the baseline model, with less than -0.5 BLEU. We achieve 8.3$\times$ reduction in run-time memory footprints and 3.5$\times$ speed up (Galaxy N10+) such that our proposed compression strategy enables efficient implementation for on-device NMT.


翻译:广泛使用的变压器结构的部署具有挑战性,因为在推论期间计算负荷和内存管理负担过重,特别是在目标装置在移动或边缘装置等计算资源中有限的情况下。量化是应对此类挑战的一种有效方法。我们的分析表明,对于一定数量的四分位位位数,每个变压器区块都以不同的方式促进翻译质量和推算计算。此外,即使在一个嵌入区块内,每个单词也提供非常不同的贡献。相应的是,我们建议采用混合精密量化战略,以极低的位数代表变压器重量(例如3位以下)。例如,对于嵌入区中的每个单词,我们根据统计属性指定不同的四分位数位数。我们的四分位化变换器模型比基线模型小11.8美元,比基准模型小1.5BLEU少。我们在运行时记忆足迹减少8.3美元,加速3.5美元(Gaxlexy N10+),因此我们拟议的压缩战略能够有效地执行NMT。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年11月15日
Arxiv
0+阅读 · 2020年11月20日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年11月15日
Top
微信扫码咨询专知VIP会员