In automatic speech recognition (ASR) rescoring, the hypothesis with the fewest errors should be selected from the n-best list using a language model (LM). However, LMs are usually trained to maximize the likelihood of correct word sequences, not to detect ASR errors. We propose an ASR rescoring method for directly detecting errors with ELECTRA, which is originally a pre-training method for NLP tasks. ELECTRA is pre-trained to predict whether each word is replaced by BERT or not, which can simulate ASR error detection on large text corpora. To make this pre-training closer to ASR error detection, we further propose an extended version of ELECTRA called phone-attentive ELECTRA (P-ELECTRA). In the pre-training of P-ELECTRA, each word is replaced by a phone-to-word conversion model, which leverages phone information to generate acoustically similar words. Since our rescoring method is optimized for detecting errors, it can also be used for word-level confidence estimation. Experimental evaluations on the Librispeech and TED-LIUM2 corpora show that our rescoring method with ELECTRA is competitive with conventional rescoring methods with faster inference. ELECTRA also performs better in confidence estimation than BERT because it can learn to detect inappropriate words not only in fine-tuning but also in pre-training.


翻译:在自动语音识别(ASR)分解自动语音识别(ASR)中,使用语言模型(LM)从最优列表中选择最小差错的假设。然而,LMM通常会接受培训,以最大限度地提高正确字序列的可能性,而不是发现ASR错误。我们建议了与ELECTRA(ELECTRA)直接检测错误的ASR重新校准方法,ELECTRA最初是NLP任务的培训前方法。ELECTRA(ELECTRA)最初是使用电话对字转换模型,该模型利用电话信息生成声学上相似的词。由于我们的Recoring方法可以模拟大文本子公司对ASR的错误检测。为了使培训前更接近于ASR错误检测,我们进一步建议扩大ELECTRA(P-ELECTRA)称为电话识别强化字母序列序列的扩展版本。在P-ELECTRA(E-LTRA)前培训中,每个词都由电话对词转换模型取代,该模型利用电话信息产生声学上相似的词。由于我们的Recoring the develop develop listris and Excience LABCUA 方法,因此在LA RECUB-CUB-CS-CS-CUBS-S-S-S-CRABS-S-CUBS-S-S-S-S-CUDRA中也显示更高级方法中进行更佳的测试方法,因此在LB-S-S-S-S-S-CUD-CS-CUD-S-CS-CR-S-S-S-S-S-S-S-S-S-S-S-S-C-S-S-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-S-S-S-S-C-C-C-C-C-C-C-C-C-C-C-C-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-S-

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
23+阅读 · 2021年9月23日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
7+阅读 · 2018年12月5日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年9月23日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
已删除
将门创投
4+阅读 · 2020年1月6日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员