Code-switching in automatic speech recognition (ASR) is an important challenge due to globalization. Recent research in multilingual ASR shows potential improvement over monolingual systems. We study key issues related to multilingual modeling for ASR through a series of large-scale ASR experiments. Our innovative framework deploys a multi-graph approach in the weighted finite state transducers (WFST) framework. We compare our WFST decoding strategies with a transformer sequence to sequence system trained on the same data. Given a code-switching scenario between Arabic and English languages, our results show that the WFST decoding approaches were more suitable for the intersentential code-switching datasets. In addition, the transformer system performed better for intrasentential code-switching task. With this study, we release an artificially generated development and test sets, along with ecological code-switching test set, to benchmark the ASR performance.


翻译:自动语音识别(ASR)的代码转换是全球化带来的一个重大挑战。最近对多种语言的ASR的研究显示,单语系统有潜在的改进。我们通过一系列大规模 ASR 实验,研究与ASR 的多语言模型相关的关键问题。我们的创新框架在加权限量转换器(WFST)框架中采用了多语种方法。我们比较了我们的WFST解码策略和变压器序列与根据同一数据训练的序列系统。鉴于阿拉伯语和英语之间的代码转换情景,我们的结果显示WFST解码方法更适合中间代码转换数据集。此外,变压器系统在正常代碼转换任务中表现更好。我们通过这项研究,释放了人工生成的开发和测试装置,以及生态代码转换测试装置,以作为ASR性能的基准。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
已删除
将门创投
5+阅读 · 2019年4月4日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
新加坡科技设计大学杨杰博士莅临我校,并做了报告:Recent Advances in Sequence Labeling
黑龙江大学自然语言处理实验室
4+阅读 · 2018年9月13日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
5+阅读 · 2019年11月22日
VIP会员
相关VIP内容
相关资讯
Interspeech 2019 | 从顶会看语音技术的发展趋势
AI科技评论
16+阅读 · 2019年9月19日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
已删除
将门创投
5+阅读 · 2019年4月4日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
新加坡科技设计大学杨杰博士莅临我校,并做了报告:Recent Advances in Sequence Labeling
黑龙江大学自然语言处理实验室
4+阅读 · 2018年9月13日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员