Recurrent neural network transducers (RNN-T) are a promising end-to-end speech recognition framework that transduces input acoustic frames into a character sequence. The state-of-the-art encoder network for RNN-T is the Conformer, which can effectively model the local-global context information via its convolution and self-attention layers. Although Conformer RNN-T has shown outstanding performance (measured by word error rate (WER) in general), most studies have been verified in the setting where the train and test data are drawn from the same domain. The domain mismatch problem for Conformer RNN-T has not been intensively investigated yet, which is an important issue for the product-level speech recognition system. In this study, we identified that fully connected self-attention layers in the Conformer caused high deletion errors, specifically in the long-form out-domain utterances. To address this problem, we introduce sparse self-attention layers for Conformer-based encoder networks, which can exploit local and generalized global information by pruning most of the in-domain fitted global connections. Further, we propose a state reset method for the generalization of the prediction network to cope with long-form utterances. Applying proposed methods to an out-domain test, we obtained 24.6\% and 6.5\% relative character error rate (CER) reduction compared to the fully connected and local self-attention layer-based Conformers, respectively.


翻译:常规神经网络传输器( RNN- T) 是一个充满希望的端对端语音识别框架, 它将声学框架输入到字符序列中。 RNN- T 的最新编码器网络是Confer, 它可以通过它的相变层和自留层来有效地模拟当地- 全球背景信息。 虽然 Confold RNN- T 显示出杰出的性能( 通常用字差率衡量 ), 但大多数研究都是在从同一领域提取电动和测试数据的环境下进行核实的。 Conex RNN- T 的域错配问题尚未深入调查,这是产品级语音识别系统的一个重要问题。 在这项研究中,我们发现Conferd 完全连接的自留层造成高的删除错误, 特别是在长式外出场话中。 为了解决这个问题, 我们为基于Confect- 的电离子网络引入了稀薄的自留层级层层层, 通过将大多数内部的相对连通性全球链接进行本地和通用的全球信息。 我们分别提出了一个自存的自存的自存的自存的自存式网络, 和自存的自存的自存的自存式网络, 与自存的自存的自存的自存的自存的自存的自存的自存的自存到自存的自存的自存的自存的自存方法。

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年9月3日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
43+阅读 · 2020年11月11日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
干货|完全图解RNN、RNN变体、Seq2Seq、Attention机制
机器学习研究会
12+阅读 · 2017年8月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
Arxiv
0+阅读 · 2021年10月7日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年1月29日
VIP会员
相关VIP内容
专知会员服务
46+阅读 · 2021年9月3日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
43+阅读 · 2020年11月11日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
干货|完全图解RNN、RNN变体、Seq2Seq、Attention机制
机器学习研究会
12+阅读 · 2017年8月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
Top
微信扫码咨询专知VIP会员