We propose a simple method for automatic speech recognition (ASR) by fine-tuning BERT, which is a language model (LM) trained on large-scale unlabeled text data and can generate rich contextual representations. Our assumption is that given a history context sequence, a powerful LM can narrow the range of possible choices and the speech signal can be used as a simple clue. Hence, comparing to conventional ASR systems that train a powerful acoustic model (AM) from scratch, we believe that speech recognition is possible by simply fine-tuning a BERT model. As an initial study, we demonstrate the effectiveness of the proposed idea on the AISHELL dataset and show that stacking a very simple AM on top of BERT can yield reasonable performance.


翻译:我们提出一个简单的方法,通过微调BERT自动语音识别(ASR),这是一种语言模型,受过大规模无标签文本数据培训,可以产生丰富的背景陈述。我们的假设是,根据历史背景序列,强大的LM可以缩小可能的选择范围,语言信号可以作为一个简单线索使用。因此,与常规的ASR系统相比,从零开始培养强大的声学模型(AM),我们认为只要微调BERT模型就有可能实现语音识别。作为初步研究,我们展示了AISELL数据集拟议想法的有效性,并表明在BERT上堆叠一个非常简单的AM可以产生合理的性能。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
26+阅读 · 2020年10月15日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
26+阅读 · 2020年7月23日
Top
微信扫码咨询专知VIP会员