We propose an end-to-end trainable approach to single-channel speech separation with unknown number of speakers. Our approach extends the MulCat source separation backbone with additional output heads: a count-head to infer the number of speakers, and decoder-heads for reconstructing the original signals. Beyond the model, we also propose a metric on how to evaluate source separation with variable number of speakers. Specifically, we cleared up the issue on how to evaluate the quality when the ground-truth hasmore or less speakers than the ones predicted by the model. We evaluate our approach on the WSJ0-mix datasets, with mixtures up to five speakers. We demonstrate that our approach outperforms state-of-the-art in counting the number of speakers and remains competitive in quality of reconstructed signals.


翻译:我们建议一种最终到最终的训练方法,用人数不详的发言者进行单一频道的语音分离。我们的方法将MulCat源源的分离主干网扩展为额外的输出头:一个计算出发言者人数的计数头,以及重建原始信号的解码头。除了模型外,我们还提出了如何用不同人数的发言者来评价源分离的衡量标准。具体地说,我们澄清了当地面实况的发言者比模型预测的要多或少时如何评价质量的问题。我们评估了我们在WSJ0混合数据集上的做法,混合了多达5个发言者。我们证明,我们的方法在计算发言者人数方面超过了最先进的标准,在重建信号的质量方面仍然具有竞争力。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
已删除
将门创投
12+阅读 · 2019年7月1日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关资讯
已删除
将门创投
12+阅读 · 2019年7月1日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Top
微信扫码咨询专知VIP会员