Many real-world applications require to convert speech files into text with high accuracy with limited resources. This paper proposes a method to recognize large speech database fast using the Transformer-based end-to-end model. Transfomers have improved the state-of-the-art performance in many fields as well as speech recognition. But it is not easy to be used for long sequences. In this paper, various techniques to speed up the recognition of real-world speeches are proposed and tested including parallelizing the recognition using batched beam search, detecting end-of-speech based on connectionist temporal classification (CTC), restricting CTC prefix score and splitting long speeches into short segments. Experiments are conducted with real-world Korean speech recognition task. Experimental results with an 8-hour test corpus show that the proposed system can convert speeches into text in less than 3 minutes with 10.73% character error rate which is 27.1% relatively low compared to conventional DNN-HMM based recognition system.


翻译:许多真实世界应用程序要求将语音文件转换为文本,且精密且资源有限。本文件建议采用基于变换器端对端模式快速识别大型语音数据库的方法。 Transfomers改进了许多领域的最新性能以及语音识别。 但对于长序列来说并不容易使用。 在本文中,提出并测试了加速识别真实世界演讲的各种技术,包括使用分批的波束搜索来平行识别,根据连接时间分类(CTC)探测终端语音,限制CTC前缀分数,将长话分解成短段。实验是在现实世界韩国语音识别任务下进行的。实验结果有8小时的测试体显示,拟议的系统可以将演讲转换为短于3分钟的文本,10.73%的字符错误率比常规的DNN-HMM识别系统低27.1%。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【清华大学】图神经网络交通流预测综述论文,19页pdf
专知会员服务
49+阅读 · 2021年1月29日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年6月7日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2018年6月7日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
开源自动语音识别系统wav2letter (附实现教程)
七月在线实验室
9+阅读 · 2018年1月8日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Top
微信扫码咨询专知VIP会员