Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, speech recognition can still be considered difficult, especially for languages lacking available data, as Brazilian Portuguese. In this sense, this work presents the development of an public Automatic Speech Recognition system using only open available audio data, from the fine-tuning of the Wav2vec 2.0 XLSR-53 model pre-trained in many languages over Brazilian Portuguese data. The final model presents a Word Error Rate of 11.95% (Common Voice Dataset). This corresponds to 13% less than the best open Automatic Speech Recognition model for Brazilian Portuguese available according to our best knowledge, which is a promising result for the language. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust systems, even for languages having few available data.


翻译:深层学习技术在各种任务中被证明是有效的,特别是在发展语音识别系统方面,即旨在用音频顺序拼写句子的系统。尽管在这一领域取得了进展,但语音识别仍被认为是困难的,特别是缺乏可用数据的语言,巴西葡萄牙语。从这个意义上讲,这项工作展示了公共自动语音识别系统的发展,该系统仅使用开放的音频数据,从微调Wav2vec 2.0 XLSR-53模式中,对巴西葡萄牙语数据进行了许多语言的预先培训。最后模型显示的是11.95%的单词错误率(通用语音数据集),这比根据我们的最佳知识为巴西葡萄牙语提供的最好的开放自动语音识别模式少13%,这对语言来说是一个大有希望的结果。一般而言,这项工作证实在开发稳健的系统时使用自我监督的学习技术,特别是使用Wav2vec 2.0结构,即使语言可用数据很少。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
80+阅读 · 2021年7月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
细数10个隐藏在Python中的彩蛋
七月在线实验室
4+阅读 · 2018年1月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
VIP会员
相关VIP内容
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
细数10个隐藏在Python中的彩蛋
七月在线实验室
4+阅读 · 2018年1月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员