Assistant Based Speech Recognition (ABSR) for air traffic control is generally trained by pooling both Air Traffic Controller (ATCO) and pilot data. In practice, this is motivated by the fact that the proportion of pilot data is lesser compared to ATCO while their standard language of communication is similar. However, due to data imbalance of ATCO and pilot and their varying acoustic conditions, the ASR performance is usually significantly better for ATCOs than pilots. In this paper, we propose to (1) split the ATCO and pilot data using an automatic approach exploiting ASR transcripts, and (2) consider ATCO and pilot ASR as two separate tasks for Acoustic Model (AM) training. For speaker role classification of ATCO and pilot data, a hypothesized ASR transcript is generated with a seed model, subsequently used to classify the speaker role based on the knowledge extracted from grammar defined by International Civil Aviation Organization (ICAO). This approach provides an average speaker role identification accuracy of 83% for ATCO and pilot. Finally, we show that training AMs separately for each task, or using a multitask approach is well suited for this data compared to AM trained by pooling all data.


翻译:空中交通管制助理语音识别系统(ABSR)一般通过将空中交通管制管理员(ATCO)和试验数据汇集在一起来培训空中交通管制方面的助理语音识别系统(ABSR),实际上,这是由于试验数据的比例比ATCO少,而其标准通信语言类似,但是由于ATCO的数据不平衡和试验以及不同的声学条件,ASR的性能通常比试验者要好得多。在本文中,我们提议(1)利用ASR记录誊本自动将ATCO和试验数据分开使用自动方法,(2)将ATCO和试验ASR视为两个单独的训练任务。关于ATCO和试验数据的演讲人角色分类和试验数据,用种子模型生成了一个虚小的ASR记录,随后用来根据从国际民用航空组织(民航组织)的语法界定的知识对演讲人的角色进行分类。这种方法为ATCO和试验提供了平均83%的演讲人角色识别精确度。最后,我们表明,对每项任务分别进行培训,或采用多任务方式,与通过汇集所有数据来训练的AM相比,我们非常适合这一数据。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Arxiv
0+阅读 · 2021年10月16日
Arxiv
0+阅读 · 2021年10月16日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
相关资讯
基于BERT的ASR纠错
深度学习自然语言处理
8+阅读 · 2020年7月16日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【泡泡前沿追踪】跟踪SLAM前沿动态系列之IROS2018
泡泡机器人SLAM
29+阅读 · 2018年10月28日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Top
微信扫码咨询专知VIP会员