We investigate the impact of aggressive low-precision representations of weights and activations in two families of large LSTM-based architectures for Automatic Speech Recognition (ASR): hybrid Deep Bidirectional LSTM - Hidden Markov Models (DBLSTM-HMMs) and Recurrent Neural Network - Transducers (RNN-Ts). Using a 4-bit integer representation, a na\"ive quantization approach applied to the LSTM portion of these models results in significant Word Error Rate (WER) degradation. On the other hand, we show that minimal accuracy loss is achievable with an appropriate choice of quantizers and initializations. In particular, we customize quantization schemes depending on the local properties of the network, improving recognition performance while limiting computational time. We demonstrate our solution on the Switchboard (SWB) and CallHome (CH) test sets of the NIST Hub5-2000 evaluation. DBLSTM-HMMs trained with 300 or 2000 hours of SWB data achieves $<$0.5% and $<$1% average WER degradation, respectively. On the more challenging RNN-T models, our quantization strategy limits degradation in 4-bit inference to 1.3%.


翻译:我们调查了两个以LSTM为基础的大型自动语音识别系统(ASR)大型LSTM结构(LSTM-隐藏的马克夫模型(DBLSTM-HMMS)和经常性神经网络-传感器(RNNT-Ts)两个家庭对重力和启动的进取性低精度表示法的影响。我们使用4位整数表示法,对这些模型中LSTM部分应用的“NA”和“ive”四分制法,导致LSTM值错误率(WER)大幅下降。另一方面,我们表明,通过适当选择量化器和初始化,可以实现最小精度损失。特别是,我们根据网络的当地特性定制量化方案,提高识别性,同时限制计算时间。我们在SWB交换机(SWB)和CallHome(CH)上展示了我们的解决方案。DBLTMTM-MM在300小时或2000小时的SWB数据中接受了300美元或2000小时的培训。另一方面,我们表明,通过适当选择量化和1%平均的WER降解。在1.3位模型中更具挑战性的RNNET降解限制。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
43+阅读 · 2020年11月27日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
ParticleAugment: Sampling-Based Data Augmentation
Arxiv
0+阅读 · 2021年10月15日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2020年11月27日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
一文详解Google最新NLP模型XLNet
PaperWeekly
17+阅读 · 2019年7月1日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
一文读懂LSTM和循环神经网络
七月在线实验室
8+阅读 · 2018年4月18日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员