We study permutation invariant training (PIT), which targets at the permutation ambiguity problem for speaker independent source separation models. We extend two state-of-the-art PIT strategies. First, we look at the two-stage speaker separation and tracking algorithm based on frame level PIT (tPIT) and clustering, which was originally proposed for the STFT domain, and we adapt it to work with waveforms and over a learned latent space. Further, we propose an efficient clustering loss scalable to waveform models. Second, we extend a recently proposed auxiliary speaker-ID loss with a deep feature loss based on "problem agnostic speech features", to reduce the local permutation errors made by the utterance level PIT (uPIT). Our results show that the proposed extensions help reducing permutation ambiguity. However, we also note that the studied STFT-based models are more effective at reducing permutation errors than waveform-based models, a perspective overlooked in recent studies.


翻译:我们研究变异性培训(变异性培训),该培训针对语言独立源分离模型的变异性模棱两可问题。我们扩展了两种最先进的PIT战略。首先,我们审视了最初为STFT域提议的基于框架级PIT(tPIT)和集群的两阶段语音分解和跟踪算法,并调整了该算法,以适应波形和已学过的潜在空间的工作。此外,我们提议了一种高效的组合损失损失可与波形模型相适应。第二,我们扩展了最近提出的具有深层特征损失的辅助语音-ID损失,其依据是“问题、不可知的语音特征特征”,以减少PIT(uPIT)在本地造成的变异性错误。我们的结果显示,拟议的扩展有助于减少变异性模糊性。但我们还注意到,所研究的STFT模型在减少变异性误差方面比波形模型更有效,在最近的研究中忽略了这一视角。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
近期必读的五篇KDD 2020【迁移学习 (TL) 】相关论文
专知会员服务
39+阅读 · 2020年8月25日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
47+阅读 · 2020年7月4日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
107+阅读 · 2020年5月15日
零样本图像分类综述 : 十年进展
专知会员服务
123+阅读 · 2019年11月16日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员