Recent research shows end-to-end ASR systems can recognize overlapped speech from multiple speakers. However, all published works have assumed no latency constraints during inference, which does not hold for most voice assistant interactions. This work focuses on multi-speaker speech recognition based on a recurrent neural network transducer (RNN-T) that has been shown to provide high recognition accuracy at a low latency online recognition regime. We investigate two approaches to multi-speaker model training of the RNN-T: deterministic output-target assignment and permutation invariant training. We show that guiding separation with speaker order labels in the former case enhances the high-level speaker tracking capability of RNN-T. Apart from that, with multistyle training on single- and multi-speaker utterances, the resulting models gain robustness against ambiguous numbers of speakers during inference. Our best model achieves a WER of 10.2% on simulated 2-speaker LibriSpeech data, which is competitive with the previously reported state-of-the-art nonstreaming model (10.3%), while the proposed model could be directly applied for streaming applications.


翻译:最近的研究显示,终端到终端的ASR系统可以识别多个发言者的重复发言。然而,所有出版的作品在推断期间都假定没有长期限制,而这对大多数语音助理的相互作用没有影响。这项工作侧重于基于经常性神经网络传输器(RNN-T)的多声语音识别,这显示在低悬浮在线识别制度中提供了高度的识别精度。我们调查了多声模式培训RNN-T的两种方法:确定性输出目标分配和变异性培训。我们显示,在前一种情况下,与扬声器标签分开的指导会增强RNNN-T的高级语音跟踪能力。除此之外,通过关于单声器和多声器语音的多语调培训,由此形成的模型对低静音量的在线识别系统具有很强的识别力。我们的最佳模型在模拟的2声器LibriSpeech数据上取得了10.2%的WER,该模型与先前报告的状态非流式应用程序具有竞争力(10.3%),而拟议的模型可以直接用于流式应用。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关VIP内容
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
22+阅读 · 2020年1月28日
相关资讯
Top
微信扫码咨询专知VIP会员