为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自中国人民大学等机构的判别性多声源定位方面的工作。该工作由胡迪老师指导,卫雅珂同学录制。
论文题目:Class-aware Sounding Objects Localization via Audiovisual Correspondence
作者列表:胡迪 (中国人民大学),卫雅珂 (中国人民大学),钱锐 (香港中文大学),林巍峣 (上海交通大学),宋睿华 (中国人民大学),文继荣 (中国人民大学)
B站观看网址:
https://www.bilibili.com/video/BV1H3411L72Q/
复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。
论文摘要:
视听场景在我们的日常生活中无处不在。对人类来说,判别性定位不同的发声物体是司空见惯的,但对机器来说,在没有类别标注的情况下实现对发声物体的判别性定位相当具有挑战性的,即不仅定位出发声物体并识别其类别。为了解决这个问题,我们提出了一个两阶段的学习框架,在复杂的视听场景中仅利用视音一致性定位和识别发声物体。首先,我们在单声源情况下通过粗粒度的视音对应关系来确定发声区域。然后利用发声区域提取发声物体的视觉特征,继而建立不同类别物体视觉表征的字典。而后,在多声源的鸡尾酒会场景中利用该字典得到判别性物体定位图,随后利用视音一致性抑制画面中存在但不发声的物体的区域。最后,我们采用类别级别的视音一致性作为自监督信号,以实现细粒度的视音分布对齐。在真实及合成视频上的实验表明,我们的模型在判别性定位发声物体并过滤掉不发声的物体方面具有优势。我们还将所训练的视听网络迁移到无监督物体检测任务中,获得了良好的性能。
论文信息:
[1] Di Hu, Yake Wei, Rui Qian, Weiyao Lin, Ruihua Song, Ji-Rong Wen. Class-aware Sounding Objects Localization via Audiovisual Correspondence. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.
论文链接:
[https://ieeexplore.ieee.org/abstract/document/9662191/]
项目主页:
[https://gewu-lab.github.io/CSOL_TPAMI2021/]
代码链接:
[https://github.com/DTaoo/Discriminative-Sounding-Objects-Localization]
视频讲者简介:
卫雅珂,中国人民大学高瓴人工智能学院博士生,研究方向为多模态学习。
特别鸣谢本次论文速览主要组织者:
月度轮值AC:刘昊 (宁夏大学)、叶茫 (武汉大学)
季度责任AC:杨猛 (中山大学)
活动参与方式
1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!
直播地址:
https://live.bilibili.com/22300737;
历史视频观看地址:
https://space.bilibili.com/562085182/
2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。
3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。
4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。
看到这了,确定不关注下吗?关注下再走吧~