Single channel speech separation has experienced great progress in the last few years. However, training neural speech separation for a large number of speakers (e.g., more than 10 speakers) is out of reach for the current methods, which rely on the Permutation Invariant Loss (PIT). In this work, we present a permutation invariant training that employs the Hungarian algorithm in order to train with an $O(C^3)$ time complexity, where $C$ is the number of speakers, in comparison to $O(C!)$ of PIT based methods. Furthermore, we present a modified architecture that can handle the increased number of speakers. Our approach separates up to $20$ speakers and improves the previous results for large $C$ by a wide margin.


翻译:过去几年来,单一频道的语音分离取得了巨大进展,然而,对大量发言者(例如10多个发言者)进行神经语音分离培训,目前的方法无法采用,这些方法依赖于变异性变异性损失(PIT),在这项工作中,我们提供了一种变异性培训,采用匈牙利算法,以便用3美元的时间复杂度来培训,与基于PIT方法的1美元(C)相比,其发言者数为1美元。此外,我们提出了一个经修改的结构,可以处理增加的发言者人数。我们的方法将发言者分为最多20美元,并大幅度地改进以前大额C$的成绩。

0
下载
关闭预览

相关内容

专知会员服务
51+阅读 · 2020年12月14日
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
15+阅读 · 2020年9月25日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
120+阅读 · 2020年5月6日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
模式国重实验室21篇论文入选CVPR 2020
专知
30+阅读 · 2020年3月8日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
详解GAN的谱归一化(Spectral Normalization)
PaperWeekly
11+阅读 · 2019年2月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关VIP内容
专知会员服务
51+阅读 · 2020年12月14日
【ACMMM2020】小规模行人检测的自模拟学习
专知会员服务
15+阅读 · 2020年9月25日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
120+阅读 · 2020年5月6日
相关资讯
Top
微信扫码咨询专知VIP会员