VALSE 论文速览第52期：“鸡尾酒会”场景下的发声物体感知与判别 - 专知

会员服务 ·

0

VALSE 论文速览第52期：“鸡尾酒会”场景下的发声物体感知与判别

2022 年 2 月 22 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自中国人民大学等机构的判别性多声源定位方面的工作。该工作由胡迪老师指导，卫雅珂同学录制。

论文题目：Class-aware Sounding Objects Localization via Audiovisual Correspondence

作者列表：胡迪 (中国人民大学)，卫雅珂 (中国人民大学)，钱锐 (香港中文大学)，林巍峣 (上海交通大学)，宋睿华 (中国人民大学)，文继荣 (中国人民大学)

B站观看网址：

https://www.bilibili.com/video/BV1H3411L72Q/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

视听场景在我们的日常生活中无处不在。对人类来说，判别性定位不同的发声物体是司空见惯的，但对机器来说，在没有类别标注的情况下实现对发声物体的判别性定位相当具有挑战性的，即不仅定位出发声物体并识别其类别。为了解决这个问题，我们提出了一个两阶段的学习框架，在复杂的视听场景中仅利用视音一致性定位和识别发声物体。首先，我们在单声源情况下通过粗粒度的视音对应关系来确定发声区域。然后利用发声区域提取发声物体的视觉特征，继而建立不同类别物体视觉表征的字典。而后，在多声源的鸡尾酒会场景中利用该字典得到判别性物体定位图，随后利用视音一致性抑制画面中存在但不发声的物体的区域。最后，我们采用类别级别的视音一致性作为自监督信号，以实现细粒度的视音分布对齐。在真实及合成视频上的实验表明，我们的模型在判别性定位发声物体并过滤掉不发声的物体方面具有优势。我们还将所训练的视听网络迁移到无监督物体检测任务中，获得了良好的性能。

论文信息：

[1] Di Hu, Yake Wei, Rui Qian, Weiyao Lin, Ruihua Song, Ji-Rong Wen. Class-aware Sounding Objects Localization via Audiovisual Correspondence. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.

论文链接：

[https://ieeexplore.ieee.org/abstract/document/9662191/]

项目主页：

[https://gewu-lab.github.io/CSOL_TPAMI2021/]

代码链接：

[https://github.com/DTaoo/Discriminative-Sounding-Objects-Localization]

视频讲者简介：

卫雅珂，中国人民大学高瓴人工智能学院博士生，研究方向为多模态学习。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：刘昊 (宁夏大学)、叶茫 (武汉大学)

季度责任AC：杨猛 (中山大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

看到这了，确定不关注下吗？关注下再走吧～

登录查看更多

0

相关内容

VALSE研讨会

VALSE 发起于 2011年，是 Vision And Learning Seminar 的简写，取“华尔兹舞”之意。目的是为全球计算机视觉、模式识别、机器学习、多媒体技术等相关领域的华人青年学者提供一个平等、自由的学术交流舞台。官网：http://valser.org/

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

【ICCV2021】多视角多尺度监督的图像篡改检测模型

专知会员服务

23+阅读 · 2021年9月23日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

专知会员服务

13+阅读 · 2020年11月3日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

TPAMI 2021｜听声识物：视音一致性下的视觉物体感知

TPAMI 2021｜听声识物：视音一致性下的视觉物体感知

机器之心

0+阅读 · 2022年3月5日

VALSE 论文速览第54期：Learngene：从开放世界到目标学习任务

VALSE 论文速览第54期：Learngene：从开放世界到目标学习任务

VALSE

1+阅读 · 2022年3月2日

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE

0+阅读 · 2021年11月26日

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE

0+阅读 · 2021年11月19日

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE

1+阅读 · 2021年11月2日

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

稀疏化、结构化和判别性约束的多视角行为识别方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

移动机器人基于三维激光测距的室内场景认知与物体识别

国家自然科学基金

0+阅读 · 2012年12月31日

室内未知环境下移动机器人基于立体视觉的自主认知技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

Music Source Separation with Generative Flow

Arxiv

0+阅读 · 2022年4月19日

Learning Visual Shape Control of Novel 3D Deformable Objects from Partial-View Point Clouds

Arxiv

0+阅读 · 2022年4月18日

A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月16日

A Survey on Edge Intelligence

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

VIP会员

相关主题

相关VIP内容

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

【CVPR2022】OakInk:理解手-物体交互的大规模知识库

专知会员服务

15+阅读 · 2022年4月6日

【ICCV2021】多视角多尺度监督的图像篡改检测模型

专知会员服务

23+阅读 · 2021年9月23日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

【NeurIPS 2020】"鸡尾酒会"基于课程学习策略的自监督发声物体的判别性感知与定位

专知会员服务

13+阅读 · 2020年11月3日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

TPAMI 2021｜听声识物：视音一致性下的视觉物体感知

TPAMI 2021｜听声识物：视音一致性下的视觉物体感知

机器之心

0+阅读 · 2022年3月5日

VALSE 论文速览第54期：Learngene：从开放世界到目标学习任务

VALSE 论文速览第54期：Learngene：从开放世界到目标学习任务

VALSE

1+阅读 · 2022年3月2日

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE 论文速览第29期：通过观察镜中人来重建三维人体姿态

VALSE

0+阅读 · 2021年11月26日

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE 论文速览第27期：3D点云语义分割当中的“稀疏到稠密”多模态联合学习

VALSE

0+阅读 · 2021年11月19日

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE 论文速览第23期：VS-Net:基于分割投票的视觉定位

VALSE

1+阅读 · 2021年11月2日

相关基金

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

基于知识迁移的跨领域人体动作识别

国家自然科学基金

5+阅读 · 2013年12月31日

稀疏化、结构化和判别性约束的多视角行为识别方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

移动机器人基于三维激光测距的室内场景认知与物体识别

国家自然科学基金

0+阅读 · 2012年12月31日

室内未知环境下移动机器人基于立体视觉的自主认知技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

相关论文

A Dynamic 3D Spontaneous Micro-expression Database: Establishment and Evaluation

Arxiv

0+阅读 · 2022年4月20日

Music Source Separation with Generative Flow

Arxiv

0+阅读 · 2022年4月19日

Learning Visual Shape Control of Novel 3D Deformable Objects from Partial-View Point Clouds

Arxiv

0+阅读 · 2022年4月18日

A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis

Arxiv

0+阅读 · 2022年4月16日

A Survey on Edge Intelligence

A Survey on Edge Intelligence

Arxiv

52+阅读 · 2020年3月26日

大家都在搜

蓝牙安全攻防

大型语言模型

人工智能PPT

太阳能无人机

滴滴司机调度系统实践

微信扫码咨询专知VIP会员