Recent research shows end-to-end ASR systems can recognize overlapped speech from multiple speakers. However, all published works have assumed no latency constraints during inference, which does not hold for most voice assistant interactions. This work focuses on multi-speaker speech recognition based on a recurrent neural network transducer (RNN-T) that has been shown to provide high recognition accuracy at a low latency online recognition regime. We investigate two approaches to multi-speaker model training of the RNN-T: deterministic output-target assignment and permutation invariant training. We show that guiding separation with speaker order labels in the former case enhances the high-level speaker tracking capability of RNN-T. Apart from that, with multistyle training on single- and multi-speaker utterances, the resulting models gain robustness against ambiguous numbers of speakers during inference. Our best model achieves a WER of 10.2% on simulated 2-speaker LibriSpeech data, which is competitive with the previously reported state-of-the-art nonstreaming model (10.3%), while the proposed model could be directly applied for streaming applications.


翻译:最近的研究显示,终端到终端的ASR系统可以识别多个发言者的重复发言。然而,所有出版的作品在推断期间都假定没有长期限制,而这对大多数语音助理的相互作用没有影响。这项工作侧重于基于经常性神经网络传输器(RNN-T)的多声语音识别,这显示在低悬浮在线识别制度中提供了高度的识别精度。我们调查了多声模式培训RNN-T的两种方法:确定性输出目标分配和变异性培训。我们显示,在前一种情况下,与扬声器标签分开的指导会增强RNNN-T的高级语音跟踪能力。除此之外,通过关于单声器和多声器语音的多语调培训,由此形成的模型对低静音量的在线识别系统具有很强的识别力。我们的最佳模型在模拟的2声器LibriSpeech数据上取得了10.2%的WER,该模型与先前报告的状态非流式应用程序具有竞争力(10.3%),而拟议的模型可以直接用于流式应用。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
61+阅读 · 2020年3月19日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Phase-aware Speech Enhancement with Deep Complex U-Net
VIP会员
相关VIP内容
专知会员服务
61+阅读 · 2020年3月19日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员