With the rapid development of speech assistants, adapting server-intended automatic speech recognition (ASR) solutions to a direct device has become crucial. Researchers and industry prefer to use end-to-end ASR systems for on-device speech recognition tasks. This is because end-to-end systems can be made resource-efficient while maintaining a higher quality compared to hybrid systems. However, building end-to-end models requires a significant amount of speech data. Another challenging task associated with speech assistants is personalization, which mainly lies in handling out-of-vocabulary (OOV) words. In this work, we consider building an effective end-to-end ASR system in low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel Georgian tasks. To address the aforementioned problems, we propose a method of dynamic acoustic unit augmentation based on the BPE-dropout technique. It non-deterministically tokenizes utterances to extend the token's contexts and to regularize their distribution for the model's recognition of unseen words. It also reduces the need for optimal subword vocabulary size search. The technique provides a steady improvement in regular and personalized (OOV-oriented) speech recognition tasks (at least 6% relative WER and 25% relative F-score) at no additional computational cost. Owing to the use of BPE-dropout, our monolingual Turkish Conformer established a competitive result with 22.2% character error rate (CER) and 38.9% word error rate (WER), which is close to the best published multilingual system.


翻译:随着语音助理的迅速发展,使服务器准备的自动语音识别(ASR)解决方案适应直接装置已经变得至关重要。研究人员和工业界倾向于使用终端到终端的ASR系统进行语音识别任务。这是因为端到端系统可以提高资源效率,同时保持与混合系统相比更高的质量。然而,建立端到端模式需要大量的语音数据。与语音助理有关的另一项艰巨任务是个性化,这主要在于处理词汇外语(OOOV)词。在这项工作中,我们考虑在低资源配置中建立一个有效的端到终端的ASR系统,其OOV比率高,体现在 Babel 土耳其和 Babel格鲁吉亚的任务中。为了解决上述问题,我们建议一种动态音响单位增强的方法,以BPE-投出技术为基础。它非非非非决定性的象征性地表达其表达方式,以语言外语(OOV)外语(OV)外语翻译(OVE)外语翻译(OLOLO)外语识别。我们最接近的子词汇搜索率(BOLOL% 相对成本计算中,技术定期改进了22个个人语音成本计算。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
60+阅读 · 2020年3月19日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息6条
Call4Papers
9+阅读 · 2019年8月13日
已删除
将门创投
6+阅读 · 2019年4月10日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员