This work describes an encoder pre-training procedure using frame-wise label to improve the training of streaming recurrent neural network transducer (RNN-T) model. Streaming RNN-T trained from scratch usually performs worse than non-streaming RNN-T. Although it is common to address this issue through pre-training components of RNN-T with other criteria or frame-wise alignment guidance, the alignment is not easily available in end-to-end manner. In this work, frame-wise alignment, used to pre-train streaming RNN-T's encoder, is generated without using a HMM-based system. Therefore an all-neural framework equipping HMM-free encoder pre-training is constructed. This is achieved by expanding the spikes of CTC model to their left/right blank frames, and two expanding strategies are proposed. To our best knowledge, this is the first work to simulate HMM-based frame-wise label using CTC model for pre-training. Experiments conducted on LibriSpeech and MLS English tasks show the proposed pre-training procedure, compared with random initialization, reduces the WER by relatively 5%~11% and the emission latency by 60 ms. Besides, the method is lexicon-free, so it is friendly to new languages without manually designed lexicon.


翻译:这项工作描述了一种使用框架标签的编码器培训前程序。 使用框架标签改进流中神经网络导体( RNNN- T) 模式的培训。 从零开始培训的 RNNN- T 的全新框架通常比非流中 RNNN- T 的预培训部分表现更差。 虽然通过RNNT-T 的预培训部分和其他标准或框架-框架- 匹配指南来解决这一问题是常见的, 但根据我们的最佳知识, 这是使用气候技术预培训模式模拟基于 HMM 的框架标签的首份工作。 在LibriSpeech 和 MLS- English 任务上进行的预培训实验没有使用基于 HMMM 的系统。 因此, 安装HMM- 免费的编码器前培训的全新框架通常比非流中 RNNNNT- T 的预培训要差。 这是通过将气候技术模型的峰值扩大至左/ 右空框和两个扩展战略来解决这个问题。 根据我们的最佳知识, 这是使用气候模型模拟基于 HMMMMMMMMMMM的框架的首项模拟框架标签进行模拟的模拟培训。 在LS- spee- sxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,, 将使用新的Fxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2021年8月8日
专知会员服务
5+阅读 · 2021年6月27日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
8+阅读 · 2018年11月21日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
语音识别之--韩语语音识别
微信AI
15+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员