We present a freely available speech corpus for the Uzbek language and report preliminary automatic speech recognition (ASR) results using both the deep neural network hidden Markov model (DNN-HMM) and end-to-end (E2E) architectures. The Uzbek speech corpus (USC) comprises 958 different speakers with a total of 105 hours of transcribed audio recordings. To the best of our knowledge, this is the first open-source Uzbek speech corpus dedicated to the ASR task. To ensure high quality, the USC has been manually checked by native speakers. We first describe the design and development procedures of the USC, and then explain the conducted ASR experiments in detail. The experimental results demonstrate promising results for the applicability of the USC for ASR. Specifically, 18.1% and 17.4% word error rates were achieved on the validation and test sets, respectively. To enable experiment reproducibility, we share the USC dataset, pre-trained models, and training recipes in our GitHub repository.


翻译:我们利用深神经网络隐藏的Markov模型(DNN-HMM)和端对端结构(E2E),为乌兹别克语提供了可自由获取的语音资料,并报告了初步自动语音识别(ASR)结果。乌兹别克语音资料(USC)由958位不同的发言者组成,总共进行了105小时的录音录音转录。据我们所知,这是第一个专门从事ASR任务的开放源乌兹别克语音资料。为了确保高质量的,USC已经由当地演讲者手工检查。我们首先描述了USC的设计和开发程序,然后详细解释了已经进行的ASR实验。实验结果显示了USC适用于ASR的有希望的结果。具体地说,在验证和测试组中分别实现了18.1%和17.4%的字差错率。为了能够进行实验,我们分享了我们的GitHub储存库中的USC数据集、预先培训模式和培训食谱。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
94+阅读 · 2021年8月28日
【斯坦福CS329S】机器学习系统设计导论,92页ppt
专知会员服务
37+阅读 · 2021年1月19日
专知会员服务
17+阅读 · 2020年9月6日
迁移学习简明教程,11页ppt
专知会员服务
107+阅读 · 2020年8月4日
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
0+阅读 · 2021年9月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Top
微信扫码咨询专知VIP会员