Audio Speech Recognition (ASR) systems are evaluated using Word Error Rate (WER) which is calculated by comparing the number of errors between the ground truth and the ASR system's transcription. This calculation, however, requires manual transcription of the speech signal to obtain the ground truth. Since transcribing audio signals is a costly process, Automatic WER Evaluation (e-WER) methods have been developed which attempt to predict the WER of a Speech system by only relying on the transcription and the speech signal features. While WER is a continuous variable, previous works have shown that positing e-WER as a classification problem is more effective than regression. However, while converting to a classification setting, these approaches suffer from heavy class imbalance. In this paper, we propose a new balanced paradigm for e-WER in a classification setting. Within this paradigm, we also propose WER-BERT, a BERT based architecture with speech features for e-WER. Furthermore, we introduce a distance loss function to tackle the ordinal nature of e-WER classification. The proposed approach and paradigm are evaluated on the Librispeech dataset and a commercial (black box) ASR system, Google Cloud's Speech-to-Text API. The results and experiments demonstrate that WER-BERT establishes a new state-of-the-art in automatic WER estimation.


翻译:语音语音识别(ASR)系统是用单词错误率(WER)来评估声音语音识别(ASR)系统。WER是一个连续变量,而以前的工作显示,将e-WER作为分类问题比回归更有效。然而,在转换为分类设置时,这些方法存在严重的阶级不平衡。在本文中,我们提议在分类设置中为e-WER提供一种新的平衡模式。在这个模式中,我们还提议WER-BERT, 一种基于语音特征的语音系统结构。此外,我们引入了远程损失功能,以解决e-WER分类的奥质性质。在Librispeech数据设置和商业实验中,正在对e-ER-ERSER数据设置和商业实验中,A-ER-SER-SERAAAAA-SIRAAAAA-CRAVABBAVAAFLA-RAVERAAFLA 和ANSLLIA-ERSA ASARS-WER ASAL ARB BORB AS ASAL ASU ASU ASU ASUATIOLLI AS AS AR-WER-WER-RI 和A-RIA-RIRA-RI ASAL ASB ASLB ASAL ASB ASB AS AS AS AS AS AS AS AS AS AS 。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
已删除
将门创投
12+阅读 · 2019年7月1日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关VIP内容
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
已删除
将门创投
12+阅读 · 2019年7月1日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Top
微信扫码咨询专知VIP会员