Confidence estimate is an often requested feature in applications such as medical transcription where errors can impact patient care and the confidence estimate could be used to alert medical professionals to verify potential errors in recognition. In this paper, we present a lightweight neural confidence model tailored for Automatic Speech Recognition (ASR) system with Recurrent Neural Network Transducers (RNN-T). Compared to other existing approaches, our model utilizes: (a) the time information associated with recognized words, which reduces the computational complexity, and (b) a simple and elegant trick for mapping between sub-word and word sequences. The mapping addresses the non-unique tokenization and token deletion problems while amplifying differences between confusable words. Through extensive empirical evaluations on two different long-form test sets, we demonstrate that the model achieves a performance of 0.4 Normalized Cross Entropy (NCE) and 0.05 Expected Calibration Error (ECE). It is robust across different ASR configurations, including target types (graphemes vs. morphemes), traffic conditions (streaming vs. non-streaming), and encoder types. We further discuss the importance of evaluation metrics to reflect practical applications and highlight the need for further work in improving Area Under the Curve (AUC) for Negative Precision Rate (NPV) and True Negative Rate (TNR).


翻译:在医疗转录中,错误会影响病人的护理,信任估计可以用来提醒医疗专业人员注意非统一象征性和象征性删除问题,同时扩大可互译词之间的差异。在本文中,我们介绍了一个为自动语音识别系统定制的轻量神经信心模型(ASR),该模型与经常性神经网络传输器(RNN-T)一起使用。 与其他现有方法相比,我们的模型使用:(a) 与公认的词汇相关的时间信息,该词降低了计算复杂性,以及(b) 用于子词和字序列之间绘图的简单和优雅的技巧。绘图处理非统一象征性和象征性删除问题,同时扩大可互译词之间的差异。通过对两种不同的长式测试集的广泛经验性评估,我们证明该模型取得了0.4个标准化交叉式(NCE)和0.05个预期校准错误(欧洲经委会)的性能。它在不同亚SR配置中非常稳健,包括目标类型(logemes vs. morphemes)、交通条件(Slow vs. novering) 以及编码类型。我们进一步讨论了NLAximal prepal prepal practal practal practal practal practal

0
下载
关闭预览

相关内容

【硬核书】树与网络上的概率,716页pdf
专知会员服务
75+阅读 · 2021年12月8日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年2月14日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
11+阅读 · 2019年4月15日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
5+阅读 · 2018年4月13日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关资讯
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
一文读懂命名实体识别
AINLP
31+阅读 · 2019年4月23日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员