Self-supervised audio-visual source localization aims to locate sound-source objects in video frames without extra annotations. Recent methods often approach this goal with the help of contrastive learning, which assumes only the audio and visual contents from the same video are positive samples for each other. However, this assumption would suffer from false negative samples in real-world training. For example, for an audio sample, treating the frames from the same audio class as negative samples may mislead the model and therefore harm the learned representations e.g., the audio of a siren wailing may reasonably correspond to the ambulances in multiple images). Based on this observation, we propose a new learning strategy named False Negative Aware Contrastive (FNAC) to mitigate the problem of misleading the training with such false negative samples. Specifically, we utilize the intra-modal similarities to identify potentially similar samples and construct corresponding adjacency matrices to guide contrastive learning. Further, we propose to strengthen the role of true negative samples by explicitly leveraging the visual features of sound sources to facilitate the differentiation of authentic sounding source regions. FNAC achieves state-of-the-art performances on Flickr-SoundNet, VGG-Sound, and AVSBench, which demonstrates the effectiveness of our method in mitigating the false negative issue. The code is available at \url{https://github.com/weixuansun/FNAC-AVL}.


翻译:自监督的音频-视觉源定位旨在没有额外注释的情况下定位视频帧中的声源对象。最近的方法通常利用对比学习来实现这一目标,该学习假定来自同一视频的音频和视觉内容彼此为正样本。然而,现实中的训练数据会存在虚假负样本,这会给学习带来困扰。例如,对于一个音频样本,将属于同一音频类别的帧视为负样本可能会误导模型,从而损害所学到的表示(例如,一辆警车里尖叫的声音可能合理地对应多个图像中的救护车)。 基于这一观察结果,我们提出了一种新的学习策略,称为虚假负样本感知对比学习(FNAC),以减轻这种虚假负样本问题。具体来说,我们利用本质上相似的样本来构建相应的邻接矩阵来指导对比学习。此外,我们提议通过明确利用声源的视觉特征来促进区分真实的声源区域,从而增强真实负样本的作用。 FNAC在Flickr-SoundNet、VGG-Sound和AVSBench中取得了最先进的性能,这表明我们的方法在减轻虚假负样本问题方面是有效的。 代码可在\url{https://github.com/weixuansun/FNAC-AVL}上找到。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年7月27日
专知会员服务
88+阅读 · 2021年6月29日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
【MIT】硬负样本的对比学习
专知会员服务
39+阅读 · 2020年10月14日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
简评 | Video Action Recognition 的近期进展
极市平台
20+阅读 · 2019年4月21日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月7日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员