Deep neural network based methods have been successfully applied to music source separation. They typically learn a mapping from a mixture spectrogram to a set of source spectrograms, all with magnitudes only. This approach has several limitations: 1) its incorrect phase reconstruction degrades the performance, 2) it limits the magnitude of masks between 0 and 1 while we observe that 22% of time-frequency bins have ideal ratio mask values of over~1 in a popular dataset, MUSDB18, 3) its potential on very deep architectures is under-explored. Our proposed system is designed to overcome these. First, we propose to estimate phases by estimating complex ideal ratio masks (cIRMs) where we decouple the estimation of cIRMs into magnitude and phase estimations. Second, we extend the separation method to effectively allow the magnitude of the mask to be larger than 1. Finally, we propose a residual UNet architecture with up to 143 layers. Our proposed system achieves a state-of-the-art MSS result on the MUSDB18 dataset, especially, a SDR of 8.98~dB on vocals, outperforming the previous best performance of 7.24~dB. The source code is available at: https://github.com/bytedance/music_source_separation


翻译:以深神经网络为基础的方法已经成功地应用于音乐源的分离。 它们通常会从混合光谱图到一组源光谱图进行绘图, 并且只有数量级。 这种方法有几个限制:(1) 不正确的阶段重建会降低性能, (2) 将遮罩的尺寸限制在0到1之间, 而我们观察到22%的时间频箱在流行数据集中的理想比例掩码值超过~1, MUSDB18, 3) 它在非常深层的建筑中的潜力没有得到充分的探索。 我们提议的系统旨在克服这些。 首先, 我们提议通过估计复杂的理想比例掩码(cIRMs)来估计各个阶段, 我们把对CIRMs的估计分解为规模和阶段估计。 其次, 我们扩大分离方法,以便有效地使遮罩的尺寸大于1. 最后,我们建议一个高达143层的剩余UNet结构。 我们提议的系统在MUSDB18数据集上取得了一个最先进的MSSASS结果, 特别是8. 98- dB 的SIDR, 以声波为声调, 将过去的最佳表现为7.24_ debismab/ abisal.

0
下载
关闭预览

相关内容

深度学习理论,55页ppt,Preetum Nakkiran (UCSD)
专知会员服务
32+阅读 · 2021年10月27日
专知会员服务
10+阅读 · 2020年9月1日
专知会员服务
60+阅读 · 2020年3月19日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年5月16日
VIP会员
Top
微信扫码咨询专知VIP会员