Code-switching speech refers to a means of expression by mixing two or more languages within a single utterance. Automatic Speech Recognition (ASR) with End-to-End (E2E) modeling for such speech can be a challenging task due to the lack of data. In this study, we investigate text generation and injection for improving the performance of an industry commonly-used streaming model, Transformer-Transducer (T-T), in Mandarin-English code-switching speech recognition. We first propose a strategy to generate code-switching text data and then investigate injecting generated text into T-T model explicitly by Text-To-Speech (TTS) conversion or implicitly by tying speech and text latent spaces. Experimental results on the T-T model trained with a dataset containing 1,800 hours of real Mandarin-English code-switched speech show that our approaches to inject generated code-switching text significantly boost the performance of T-T models, i.e., 16% relative Token-based Error Rate (TER) reduction averaged on three evaluation sets, and the approach of tying speech and text latent spaces is superior to that of TTS conversion on the evaluation set which contains more homogeneous data with the training set.


翻译:代码切换语音是指在单个话语中混合两种或更多的语言来表达。由于缺乏数据,对于这种语音的端到端(E2E)建模的自动语音识别(ASR)可能是一个具有挑战性的任务。在本研究中,我们探讨了文本生成和注入的方法,以提高在汉英代码交替语音识别中广泛使用的流模型——Transformer-Transducer(T-T)的性能。我们首先提出一种策略来生成代码切换文本数据,然后通过文本转语音(TTS)转换明确地将生成的文本注入T-T模型中,或者通过绑定语音和文本潜在空间隐含地注入。在包含1800小时真实汉英语言代码交替语音的数据集上,T-T模型的实验结果表明,我们的代码切换文本注入方法显著提高了T-T模型的性能,即在三个评估集上平均相对Token-based Error Rate(TER)降低16%,而将语音和文本潜在空间绑定的方法在包含更均质数据的评估集上表现优于TTS转换的方法。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
49+阅读 · 2022年10月2日
专知会员服务
15+阅读 · 2021年5月21日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
使用BERT做文本摘要
专知
23+阅读 · 2019年12月7日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
在Python中使用SpaCy进行文本分类
专知
24+阅读 · 2018年5月8日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关VIP内容
NeurlPS 2022 | 自然语言处理相关论文分类整理
专知会员服务
49+阅读 · 2022年10月2日
专知会员服务
15+阅读 · 2021年5月21日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员