Target speech separation is the process of filtering a certain speaker's voice out of speech mixtures according to the additional speaker identity information provided. Recent works have made considerable improvement by processing signals in the time domain directly. The majority of them take fully overlapped speech mixtures for training. However, since most real-life conversations occur randomly and are sparsely overlapped, we argue that training with different overlap ratio data benefits. To do so, an unavoidable problem is that the popularly used SI-SNR loss has no definition for silent sources. This paper proposes the weighted SI-SNR loss, together with the joint learning of target speech separation and personal VAD. The weighted SI-SNR loss imposes a weight factor that is proportional to the target speaker's duration and returns zero when the target speaker is absent. Meanwhile, the personal VAD generates masks and sets non-target speech to silence. Experiments show that our proposed method outperforms the baseline by 1.73 dB in terms of SDR on fully overlapped speech, as well as by 4.17 dB and 0.9 dB on sparsely overlapped speech of clean and noisy conditions. Besides, with slight degradation in performance, our model could reduce the time costs in inference.


翻译:目标语音分离是根据额外发言者身份信息,将某一发言者的声音从语音混合物中过滤出的过程。最近的工作通过直接处理时间范围内的信号而大大改进了时间范围内的信号,其中多数采用完全重叠的语音混合物来进行培训。然而,由于大多数真实生活中的对话是随机发生的,而且很少重叠,因此我们认为,培训与不同重叠比例数据的好处不同。为此,一个不可避免的问题是,普遍使用的SI-SNR损失对无声源没有定义。本文提议加权的SI-SNR损失,同时共同学习目标语音分离和个人VAD。加权的SI-SNR损失要求一个与目标发言者的时间长度成正比的重量系数,在目标发言者缺席时返回零。与此同时,个人VAD产生面具,设定非目标发言为沉默。实验表明,我们所提议的方法在完全重叠的演讲中比标准特别提款权的基线高出1.7 dB,以及4.17 dB和0.9 dB对清洁和噪音条件的微重的演讲比重。此外,由于性能轻微退化,我们的模型可以降低时间成本。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年7月15日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
157+阅读 · 2019年10月12日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
Top
微信扫码咨询专知VIP会员