Automatic speech recognition (ASR) technique is becoming increasingly popular to improve the efficiency and safety of air traffic control (ATC) operations. However, the conversation between ATC controllers and pilots using multilingual speech brings a great challenge to building high-accuracy ASR systems. In this work, we present a two-stage multilingual ASR framework. The first stage is to train a language identifier (LID), that based on a recurrent neural network (RNN) to obtain sentence language identification in the form of one-hot encoding. The second stage aims to train an RNN-based end-to-end multilingual recognition model that utilizes sentence language features generated by LID to enhance input features. In this work, We introduce Featurewise Linear Modulation (FiLM) to improve the performance of multilingual ASR by utilizing sentence language identification. Furthermore, we introduce a new sentence language identification learning module called SLIL, which consists of a FiLM layer and a Squeeze-and-Excitation Networks layer. Extensive experiments on the ATCSpeech dataset show that our proposed method outperforms the baseline model. Compared to the vanilla FiLMed backbone model, the proposed multilingual ASR model obtains about 7.50% character error rate relative performance improvement.


翻译:自动语音识别(ASR)技术在提高航空交通管制(ATC)操作效率和安全方面越来越受欢迎。然而,ATC控制员和飞行员之间使用多语言交流带来了极大的挑战,在建立高准确率的ASR系统方面有很大的难度。本文提出了一个两阶段的多语音ASR框架。第一阶段是训练一个基于循环神经网络(RNN)的语言识别器(LID),以获取句子级语言识别结果的one-hot编码形式。第二阶段旨在训练一个基于RNN的端到端多语言识别模型,该模型利用LID生成的句子语言特征来增强输入特征。我们引入了特征级线性调制(FiLM)来通过利用句子语言识别提高多语音ASR性能。此外,我们还引入了一个新的句子语言识别学习模块(SLIL),它由一个FiLM层和一个Squeeze-and-Excitation Networks层组成。实验结果表明,我们提出的方法优于基线模型。相比于基础的FiLM模型,所提出的多语音ASR模型相对性能提高了约7.50%的字符误差率。

0
下载
关闭预览

相关内容

BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
NLP专题论文解读:从Chatbot、NER到QA系统...
数据派THU
27+阅读 · 2017年11月12日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员