In this work, we propose a new automatic speech recognition (ASR) system based on feature learning and an end-to-end training procedure for air traffic control (ATC) systems. The proposed model integrates the feature learning block, recurrent neural network (RNN), and connectionist temporal classification loss to build an end-to-end ASR model. Facing the complex environments of ATC speech, instead of the handcrafted features, a learning block is designed to extract informative features from raw waveforms for acoustic modeling. Both the SincNet and 1D convolution blocks are applied to process the raw waveforms, whose outputs are concatenated to the RNN layers for the temporal modeling. Thanks to the ability to learn representations from raw waveforms, the proposed model can be optimized in a complete end-to-end manner, i.e., from waveform to text. Finally, the multilingual issue in the ATC domain is also considered to achieve the ASR task by constructing a combined vocabulary of Chinese characters and English letters. The proposed approach is validated on a multilingual real-world corpus (ATCSpeech), and the experimental results demonstrate that the proposed approach outperforms other baselines, achieving a 6.9\% character error rate.


翻译:在这项工作中,我们提出一个新的自动语音识别系统(ASR),其基础是地物学习和空中交通管制系统的端到端培训程序。拟议模型将地物学习区块、经常性神经网络(RNN)和连接器时间分类损失整合为特征学习区块,以构建终端到终端的ASR模型。面对ATC演讲的复杂环境,而不是手动制作的特征,设计了一个学习区块,以从原始波形中提取信息特征,进行声学建模。SincNet和1D演艺区块都用于处理原始波形,其产出与RNNNT层相融合,用于时间建模。由于能够从原始波形中学习演示,拟议的模型可以完全以端到端的方式优化,即从波状到文字。最后,还考虑ATC域的多语种问题,通过建立中文字符和英文字母的综合词汇来完成ASR任务。拟议的方法在多语系实体体(ATCSpeechchch)上验证,在多语言实际系统(ATCSBeech)上验证了拟议的方法,并试验结果显示其他基准率。

0
下载
关闭预览

相关内容

在机器学习中,表征学习或表示学习是允许系统从原始数据中自动发现特征检测或分类所需的表示的一组技术。这取代了手动特征工程,并允许机器学习特征并使用它们执行特定任务。在有监督的表征学习中,使用标记的输入数据来学习特征,包括监督神经网络,多层感知器和(监督)字典学习。在无监督表征学习中,特征是与未标记的输入数据一起学习的,包括字典学习,独立成分分析,自动编码器,矩阵分解和各种形式的聚类。
专知会员服务
94+阅读 · 2021年8月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
Deep Reinforcement Learning 深度增强学习资源
数据挖掘入门与实战
7+阅读 · 2017年11月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员