We showcase an unsupervised method that repurposes deep models trained for music generation and music tagging for audio source separation, without any retraining. An audio generation model is conditioned on an input mixture, producing a latent encoding of the audio used to generate audio. This generated audio is fed to a pretrained music tagger that creates source labels. The cross-entropy loss between the tag distribution for the generated audio and a predefined distribution for an isolated source is used to guide gradient ascent in the (unchanging) latent space of the generative model. This system does not update the weights of the generative model or the tagger, and only relies on moving through the generative model's latent space to produce separated sources. We use OpenAI's Jukebox as the pretrained generative model, and we couple it with four kinds of pretrained music taggers (two architectures and two tagging datasets). Experimental results on two source separation datasets, show this approach can produce separation estimates for a wider variety of sources than any tested supervised or unsupervised system. This work points to the vast and heretofore untapped potential of large pretrained music models for audio-to-audio tasks like source separation.


翻译:我们展示了一种未经监督的方法,在不进行任何再培训的情况下,重新利用为音乐制作和音乐标记所训练的用于音源分离的深层模型,而不进行再培训。音频生成模型以输入混合物为条件,生成用于生成音频的音频潜在编码。这种生成的音频被反馈到一个经过事先训练的音乐塔格上,从而创建源标签标签。生成音频的标签分发和单独源的预定义分布之间的交叉随机损失被用来指导基因模型(变换)潜在空间中的梯度上升。这个系统不更新基因模型或塔格的重量,而只依靠通过基因模型的潜在空间来生成分离的源。我们使用OpenAI的软盘作为预先训练的基因模型,我们把它与四种经过预先训练的音乐标记器(两个建筑和两个标记数据集)的实验结果用来指导两个源分离数据集的梯度。这个方法可以产生比任何经过测试的受监督或未受监督的系统更广泛的来源的分离估计。这个方法可以产生比任何经过测试的源或未受监督的系统更广泛的各种来源的分离估计数,而仅仅依靠通过基因模型来移动,而只依靠通过基因模型来产生分离的移动,而只能将产生一个巨大的和远未开发的磁系。这个工作点与大型和远未开发的大型的大型和未开发的大型的磁源的潜力。

1
下载
关闭预览

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
预训练语言模型fine-tuning近期进展概述
专知会员服务
38+阅读 · 2021年4月9日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
165+阅读 · 2020年4月26日
【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
已删除
将门创投
3+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
已删除
将门创投
3+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员