通过自我监督的视听配配配实现本地化 (Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching) - 专知论文

会员服务 ·

0

判别器 · Performer · 学成 · HTTPS · 稳健性 ·

2020 年 10 月 12 日

Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching

翻译：通过自我监督的视听配配配实现本地化

Di Hu,Rui Qian,Minyue Jiang,Xiao Tan,Shilei Wen,Errui Ding,Weiyao Lin,Dejing Dou

from arxiv, To appear in NeurIPS 2020. Previous Title: Learning to Discriminatively Localize Sounding Objects in a Cocktail-party Scenario

Discriminatively localizing sounding objects in cocktail-party, i.e., mixed sound scenes, is commonplace for humans, but still challenging for machines. In this paper, we propose a two-stage learning framework to perform self-supervised class-aware sounding object localization. First, we propose to learn robust object representations by aggregating the candidate sound localization results in the single source scenes. Then, class-aware object localization maps are generated in the cocktail-party scenarios by referring the pre-learned object knowledge, and the sounding objects are accordingly selected by matching audio and visual object category distributions, where the audiovisual consistency is viewed as the self-supervised signal. Experimental results in both realistic and synthesized cocktail-party videos demonstrate that our model is superior in filtering out silent objects and pointing out the location of sounding objects of different classes. Code is available at https://github.com/DTaoo/Discriminative-Sounding-Objects-Localization.

翻译：在鸡尾酒派对中,对声音物体进行本地化的偏差,即混合声音场景,对于人类来说是司空见惯的,但对于机器来说仍然很困难。在本文中,我们提出一个两阶段学习框架,以进行自我监督的类觉察物体本地化。首先,我们提议通过将候选人声音本地化结果汇总到单一来源场景中来学习强大的物体表达方式。然后,在鸡尾酒派对情景中,通过参考事先获得的物体知识,生成了有意识的物体本地化图,因此,通过匹配视听对象类别的分布来选择声音和视觉对象,将视听一致性视为自我监督的信号。现实和合成的鸡尾酒派对视频的实验结果表明,我们的模型在过滤静态物体和指出不同类别声音物体的位置方面优异。代码可在https://github.com/Dtaoo/Dicriminative-Sounding-Objects-本地化上查阅。

6

相关内容

判别器

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

专知会员服务

7+阅读 · 2020年4月16日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【互信息与自监督学习，32页ppt】'Notes and tutorials on "Mutual information and self-supervised learning‘“

【互信息与自监督学习，32页ppt】'Notes and tutorials on "Mutual information and self-supervised learning‘“

专知会员服务

26+阅读 · 2019年12月25日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

已删除

创业邦杂志

5+阅读 · 2019年3月27日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Benchmarking Image Retrieval for Visual Localization

Arxiv

0+阅读 · 2020年11月24日

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

Arxiv

0+阅读 · 2020年11月23日

VLG-Net: Video-Language Graph Matching Network for Video Grounding

Arxiv

1+阅读 · 2020年11月19日

Towards Spatio-Temporal Video Scene Text Detection via Temporal Clustering

Arxiv

0+阅读 · 2020年11月19日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Arxiv

3+阅读 · 2019年4月9日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Video-to-Video Synthesis

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

Horizontal Pyramid Matching for Person Re-identification

Arxiv

3+阅读 · 2018年4月30日

VIP会员

文章信息

相关主题

相关VIP内容

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

20+阅读 · 2020年8月11日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

【CVPR2020-微软-CMU】视频物体分割的一种直推方法，Video Object Segmentation

专知会员服务

7+阅读 · 2020年4月16日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

166+阅读 · 2020年3月18日

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

【DeepMind-牛津-CMU-CVPR2020】无监督文字翻译视频中的视觉基础，Visual Grounding in Video for Unsupervised Word Translation

专知会员服务

13+阅读 · 2020年3月12日

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

【AAAI2020-Oral】自监督时空学习的视频完形程序，Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

专知会员服务

30+阅读 · 2020年1月2日

【互信息与自监督学习，32页ppt】'Notes and tutorials on "Mutual information and self-supervised learning‘“

【互信息与自监督学习，32页ppt】'Notes and tutorials on "Mutual information and self-supervised learning‘“

专知会员服务

26+阅读 · 2019年12月25日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

已删除

创业邦杂志

5+阅读 · 2019年3月27日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

【泡泡一分钟】Trifo-VIO：使用点和线的稳健且高效的双目视觉惯导里程计

泡泡机器人SLAM

13+阅读 · 2018年12月20日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

相关论文

Benchmarking Image Retrieval for Visual Localization

Arxiv

0+阅读 · 2020年11月24日

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

Arxiv

0+阅读 · 2020年11月23日

VLG-Net: Video-Language Graph Matching Network for Video Grounding

Arxiv

1+阅读 · 2020年11月19日

Towards Spatio-Temporal Video Scene Text Detection via Temporal Clustering

Arxiv

0+阅读 · 2020年11月19日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Visual Grounding in Video for Unsupervised Word Translation

Visual Grounding in Video for Unsupervised Word Translation

Arxiv

7+阅读 · 2020年3月11日

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

Arxiv

3+阅读 · 2019年4月9日

Unsupervised Image Captioning

Arxiv

7+阅读 · 2018年11月27日

Video-to-Video Synthesis

Video-to-Video Synthesis

Arxiv

9+阅读 · 2018年8月20日

Horizontal Pyramid Matching for Person Re-identification

Arxiv

3+阅读 · 2018年4月30日

微信扫码咨询专知VIP会员