This paper describes the SPAPL system for the INTERSPEECH 2021 Challenge: Shared Task on Automatic Speech Recognition for Non-Native Children's Speech in German. ~ 5 hours of transcribed data and ~ 60 hours of untranscribed data are provided to develop a German ASR system for children. For the training of the transcribed data, we propose a non-speech state discriminative loss (NSDL) to mitigate the influence of long-duration non-speech segments within speech utterances. In order to explore the use of the untranscribed data, various approaches are implemented and combined together to incrementally improve the system performance. First, bidirectional autoregressive predictive coding (Bi-APC) is used to learn initial parameters for acoustic modelling using the provided untranscribed data. Second, incremental semi-supervised learning is further used to iteratively generate pseudo-transcribed data. Third, different data augmentation schemes are used at different training stages to increase the variability and size of the training data. Finally, a recurrent neural network language model (RNNLM) is used for rescoring. Our system achieves a word error rate (WER) of 39.68% on the evaluation data, an approximately 12% relative improvement over the official baseline (45.21%).


翻译:本文介绍了INSPEECH 2021挑战的SPAPL系统:德国语非母语儿童演讲自动语音识别共同任务。 提供了5小时转录数据和60小时未转录数据,以开发德国儿童ASR系统。 为培训转录数据,我们提议了非语音国家歧视损失系统(NSDL),以缓解语音话语中长期非语音部分的影响。为探索未调出数据的使用情况,采用并合并了各种方法,以逐步改进系统性能。首先,使用双向自动递增预测编码(BI-APC)来学习使用未转录数据进行声学模拟的初步参数。第二,增加的半监控学习被进一步用于迭代生成伪调数据。第三,在不同的培训阶段使用不同的数据增强计划来增加培训数据的变异性和规模。最后,一个经常性的线性语言网络模型(RNNNLMER)(RNLER) 用于使用大约12 % 的在线数据基准率。

0
下载
关闭预览

相关内容

INTERSPEECH是关于口语处理科学和技术的全球最大、最全面的会议。INTERSPEECH会议强调跨学科的方法,涉及语音科学和技术的各个方面,从基础理论到高级应用。 官网地址:http://dblp.uni-trier.de/db/conf/interspeech/index.html
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
63+阅读 · 2020年12月11日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
3+阅读 · 2018年11月19日
Arxiv
7+阅读 · 2018年9月27日
VIP会员
相关VIP内容
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
63+阅读 · 2020年12月11日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
42+阅读 · 2020年11月11日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员