We introduce a state-of-the-art audio-visual on-screen sound separation system which is capable of learning to separate sounds and associate them with on-screen objects by looking at in-the-wild videos. We identify limitations of previous work on audiovisual on-screen sound separation, including the simplicity and coarse resolution of spatio-temporal attention, and poor convergence of the audio separation model. Our proposed model addresses these issues using cross-modal and self-attention modules that capture audio-visual dependencies at a finer resolution over time, and by unsupervised pre-training of audio separation model. These improvements allow the model to generalize to a much wider set of unseen videos. For evaluation and semi-supervised training, we collected human annotations of on-screen audio from a large database of in-the-wild videos (YFCC100M). Our results show marked improvements in on-screen separation performance, in more general conditions than previous methods.


翻译:我们引入了最先进的视听屏幕声音分离系统,该系统能够通过观看现场视频,学习将声音与屏幕上物体分离,并将声音与屏幕上物体联系起来;我们确定了以往视听屏幕声音分离工作的局限性,包括时空注意力的简单和粗略解析,以及音频分离模式的趋同性差;我们提议的模型利用跨模式和自省模块来解决这些问题,这些模块在时间上以细小的分辨率记录视听依赖性,以及未经监督的音频分离模型培训前,这些改进使得该模型能够推广到范围更广的一组看不见视频;为了评估和半监督培训,我们从大型视频数据库(YFCC100M)收集了屏幕上声音的人文说明;我们的结果显示,与以往相比,屏幕上分离的性能在较一般的条件下明显改进。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
165+阅读 · 2019年10月28日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
【入门】PyTorch文本分类
深度学习自然语言处理
8+阅读 · 2020年2月2日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Arxiv
1+阅读 · 2021年8月13日
Arxiv
6+阅读 · 2019年4月4日
VIP会员
相关VIP内容
相关资讯
【入门】PyTorch文本分类
深度学习自然语言处理
8+阅读 · 2020年2月2日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Top
微信扫码咨询专知VIP会员