Recent advances in automatic speech recognition (ASR) have achieved accuracy levels comparable to human transcribers, which led researchers to debate if the machine has reached human performance. Previous work focused on the English language and modular hidden Markov model-deep neural network (HMM-DNN) systems. In this paper, we perform a comprehensive benchmarking for end-to-end transformer ASR, modular HMM-DNN ASR, and human speech recognition (HSR) on the Arabic language and its dialects. For the HSR, we evaluate linguist performance and lay-native speaker performance on a new dataset collected as a part of this study. For ASR the end-to-end work led to 12.5%, 27.5%, 33.8% WER; a new performance milestone for the MGB2, MGB3, and MGB5 challenges respectively. Our results suggest that human performance in the Arabic language is still considerably better than the machine with an absolute WER gap of 3.5% on average.


翻译:在自动语音识别(ASR)方面的最新进展达到了与人类传译器相似的准确度,这使得研究人员在机器达到人类性能时就机器的精确度展开辩论。以前的工作侧重于英语和模块隐藏的Markov 模型深神经网络(HMM-DNN)系统。在本文中,我们为端到端变压器ASR、模块HMM-DNN AS和人类语音识别(HSR)阿拉伯语及其方言进行了全面的衡量基准。在《HSR》中,我们评估了作为本研究一部分而收集的一套新数据集的语言性能和异端扬声器性能。对于ASR来说,端到端工作分别导致12.5%、27.5%、33.8%的WER;MGB2、MGB3和MGB5挑战的一个新的性能里程碑。我们的结果表明,阿拉伯语的人类性能仍然大大优于机器,平均具有3.5%的绝对WER差距。

0
下载
关闭预览

相关内容

【ICLR2021】常识人工智能,77页ppt
专知会员服务
73+阅读 · 2021年5月11日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
计算机类 | PLDI 2020等国际会议信息6条
Call4Papers
3+阅读 · 2019年7月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
VIP会员
Top
微信扫码咨询专知VIP会员