Recent advances in automatic speech recognition (ASR) have achieved accuracy levels comparable to human transcribers, which led researchers to debate if the machine has reached human performance. Previous work focused on the English language and modular hidden Markov model-deep neural network (HMM-DNN) systems. In this paper, we perform a comprehensive benchmarking for end-to-end transformer ASR, modular HMM-DNN ASR, and human speech recognition (HSR) on the Arabic language and its dialects. For the HSR, we evaluate linguist performance and lay-native speaker performance on a new dataset collected as a part of this study. For ASR the end-to-end work led to 12.5%, 27.5%, 33.8% WER; a new performance milestone for the MGB2, MGB3, and MGB5 challenges respectively. Our results suggest that human performance in the Arabic language is still considerably better than the machine with an absolute WER gap of 3.6% on average.


翻译:在自动语音识别(ASR)方面的最新进展达到了与人类传译器相似的准确度,这使得研究人员在机器达到人类性能时可以进行辩论。以前的工作重点是英语和模块隐藏的Markov 模型深神经网络(HMM-DNNN)系统。在本文中,我们对端到端变压器ASR、模块HMM-DNN AS(HSR)和人文语音识别(HSR)的阿拉伯语及其方言进行了全面的衡量标准。在《HSR》中,我们评估了作为本研究一部分收集的新数据集的语言性能和外形语语语音表现。对于ASR来说,端到端工作导致12.5%、27.5%、33.8%的WER;分别是MGB2、MGB3和MGB5挑战的一个新的性能里程碑。我们的结果表明,阿拉伯语的人类性能仍然大大高于机器,平均3.6%的绝对WER差距。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年3月12日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员