Human can recognize speech, as well as the peculiar accent of the speech simultaneously. However, present state-of-the-art ASR system can rarely do that. In this paper, we propose a multilingual approach to recognizing English speech, and related accent that speaker conveys using DNN-HMM framework. Specifically, we assume different accents of English as different languages. We then merge them together and train a multilingual ASR system. During decoding, we conduct two experiments. One is a monolingual ASR-based decoding, with the accent information embedded at phone level, realizing word-based accent recognition (AR), and the other is a multilingual ASR-based decoding, realizing an approximated utterance-based AR. Experimental results on an 8-accent English speech recognition show both methods can yield WERs close to the conventional ASR systems that completely ignore the accent, as well as desired AR accuracy. Besides, we conduct extensive analysis for the proposed method, such as transfer learning without-domain data exploitation, cross-accent recognition confusion, as well as characteristics of accented-word.


翻译:人类既可以同时识别语言,也可以同时识别语言的特殊口音。 但是,目前最先进的ASR系统很难做到这一点。 在本文中,我们提出一种多语种的方法来识别英语语言,以及使用 DNN-HMM 框架的演讲者传递的相关口音。 具体地说,我们将英语的不同口音作为不同的语言。 然后,我们把它们合并在一起,并训练一个多语言的ASR系统。 在解码过程中,我们进行两项实验。 一种是单语言的ASR解码,在电话上嵌入口音信息,实现基于字的口音识别(AR),另一种是以多种语言的ASR解码,实现一种近似基于全音的AR。 八进制英语语音识别实验结果显示这两种方法都能让WERs接近完全忽视口音的常规ASR系统,以及想要的AR精确度。 此外,我们对拟议方法进行了广泛的分析,例如不重复数据开发的学习、交叉识别混淆以及口音的特征。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
14+阅读 · 2020年9月25日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
14+阅读 · 2020年9月25日
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
5+阅读 · 2020年7月2日
Top
微信扫码咨询专知VIP会员