The efficacy of external language model (LM) integration with existing end-to-end (E2E) automatic speech recognition (ASR) systems can be improved significantly using the internal language model estimation (ILME) method. In this method, the internal LM score is subtracted from the score obtained by interpolating the E2E score with the external LM score, during inference. To improve the ILME-based inference, we propose an internal LM training (ILMT) method to minimize an additional internal LM loss by updating only the E2E model components that affect the internal LM estimation. ILMT encourages the E2E model to form a standalone LM inside its existing components, without sacrificing ASR accuracy. After ILMT, the more modular E2E model with matched training and inference criteria enables a more thorough elimination of the source-domain internal LM, and therefore leads to a more effective integration of the target-domain external LM. Experimented with 30K-hour trained recurrent neural network transducer and attention-based encoder-decoder models, ILMT with ILME-based inference achieves up to 31.5% and 11.4% relative word error rate reductions from standard E2E training with Shallow Fusion on out-of-domain LibriSpeech and in-domain Microsoft production test sets, respectively.


翻译:外部语言模型(LM)与现有端到端(E2E)自动语音识别(ASR)系统整合的外部语言模型(LM)整合与现有端到端(E2E)自动语音识别(ASR)系统的功效,可以用内部语言模型估计方法大大改进。在这种方法中,内部LM评分从与外部LM评分的内插E2E评分中得分中减去。为了改进基于ILME的内部推断,我们建议采用内部LM培训(ILMT)方法,通过仅更新影响内部LM估计的E2E模型组成部分来尽量减少额外的内部LMM损失。 ILMT鼓励E模型在不牺牲ASR准确性的情况下,在现有组成部分内形成一个独立的LMM(LME)模型。在ILMMT后,更多的模块E2E(E)模型与匹配的培训和推断标准标准标准标准LMM(LM)标准标准值,从而更有效地整合了目标和内外部LMM(IME)的LM(IM(30K-小时经培训的)网络)测试的经常性透视和以注意力定位为基础的摄测测测测算模型,使IM(ILM(ILM-LM-D)(分别为31)的ILM-LM-LM-LM-LM-L-L-LM-L)的L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-L-

0
下载
关闭预览

相关内容

【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年4月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
3+阅读 · 2018年4月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员