While permutation invariant training (PIT) based continuous speech separation (CSS) significantly improves the conversation transcription accuracy, it often suffers from speech leakages and failures in separation at "hot spot" regions because it has a fixed number of output channels. In this paper, we propose to apply recurrent selective attention network (RSAN) to CSS, which generates a variable number of output channels based on active speaker counting. In addition, we propose a novel block-wise dependency extension of RSAN by introducing dependencies between adjacent processing blocks in the CSS framework. It enables the network to utilize the separation results from the previous blocks to facilitate the current block processing. Experimental results on the LibriCSS dataset show that the RSAN-based CSS (RSAN-CSS) network consistently improves the speech recognition accuracy over PIT-based models. The proposed block-wise dependency modeling further boosts the performance of RSAN-CSS.


翻译:虽然以连续语音分离为基础的变异性培训(变异性培训)大大提高了谈话记录准确性,但往往会因为“热点”区域有固定数量的产出渠道而出现语言渗漏和分离失败。在本文中,我们提议对CSS采用经常性选择性关注网络(RSAN),这会产生基于主动语音计数的可变产出渠道。此外,我们提议通过在CSS框架内引入相邻加工区块之间的依赖性,对RSAN进行新的分块式依赖性扩展,使网络能够利用前几个区块的分离结果促进目前的区块处理。LibriCSS数据集的实验结果表明,基于RSAN的CSS(RSAN-CSS)网络不断提高基于PIT模型的语音识别准确性。拟议的块性依赖性模型进一步提升了RSAN-CSS的性能。

0
下载
关闭预览

相关内容

一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
173+阅读 · 2020年5月6日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
78+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
CIKM2020推荐系统论文集合
机器学习与推荐算法
10+阅读 · 2020年10月13日
Seq2seq框架下的文本生成
DataFunTalk
3+阅读 · 2020年8月3日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
6+阅读 · 2019年4月8日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
3+阅读 · 2018年10月25日
LARNN: Linear Attention Recurrent Neural Network
Arxiv
5+阅读 · 2018年8月16日
VIP会员
相关资讯
CIKM2020推荐系统论文集合
机器学习与推荐算法
10+阅读 · 2020年10月13日
Seq2seq框架下的文本生成
DataFunTalk
3+阅读 · 2020年8月3日
carla 体验效果 及代码
CreateAMind
7+阅读 · 2018年2月3日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
Simple Recurrent Unit For Sentence Classification
哈工大SCIR
6+阅读 · 2017年11月29日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
相关论文
Top
微信扫码咨询专知VIP会员