Music source separation can be interpreted as the estimation of the constituent music sources that a music clip is composed of. In this work, we explore the single-channel singing voice separation problem from a multimodal perspective, by jointly learning from audio and visual modalities. To do so, we present Acappella, a dataset spanning around 46 hours of a cappella solo singing videos sourced from YouTube. We propose Y-Net, an audio-visual convolutional neural network which achieves state-of-the-art singing voice separation results on the Acappella dataset and compare it against its audio-only counterpart, U-Net, and a state-of-the-art audio-visual speech separation model. Singing voice separation can be particularly challenging when the audio mixture also comprises of other accompaniment voices and background sounds along with the target voice of interest. We demonstrate that our model can outperform the baseline models in the singing voice separation task in such challenging scenarios. The code, the pre-trained models and the dataset will be publicly available at https://ipcv.github.io/Acappella/


翻译:音乐源的分离可以解释为对音乐剪辑所构成的音乐源的构成源的估计。 在这项工作中,我们从多式联运的角度,共同从视听模式中学习,探索单声道声音分离问题。 为此,我们展示了Acappella,这是一个覆盖46小时的由YouTube制作的卡贝贝拉单独歌唱视频组成的数据集。我们提议Y-Net,这是一个视听神经网络,在Acappella数据集中实现最先进的歌声分离结果,并与它与其只听音对应方U-Net和最先进的视听语音分离模型进行比较。当音频混合还包括其他相容声音和背景声音以及目标声音时,声音分离尤其具有挑战性。我们证明我们的模型在这种富有挑战的情景下,超越了歌声分离任务中的基线模型。代码、预培训模型和数据集将在https://ipcv.github.io/Acapella/数据集上公开提供。

0
下载
关闭预览

相关内容

专知会员服务
114+阅读 · 2021年1月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2020年3月2日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
8+阅读 · 2018年11月27日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
专知会员服务
114+阅读 · 2021年1月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
最新!Yann Lecun 纽约大学Spring2020深度学习课程,附PPT下载
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
5+阅读 · 2020年3月2日
Top
微信扫码咨询专知VIP会员