Audio-Visual Segmentation (AVS) aims to localize sound-producing objects at the pixel level by jointly leveraging auditory and visual information. However, existing methods often suffer from multi-source entanglement and audio-visual misalignment, which lead to biases toward louder or larger objects while overlooking weaker, smaller, or co-occurring sources. To address these challenges, we propose DDAVS, a Disentangled Audio Semantics and Delayed Bidirectional Alignment framework. To mitigate multi-source entanglement, DDAVS employs learnable queries to extract audio semantics and anchor them within a structured semantic space derived from an audio prototype memory bank. This is further optimized through contrastive learning to enhance discriminability and robustness. To alleviate audio-visual misalignment, DDAVS introduces dual cross-attention with delayed modality interaction, improving the robustness of multimodal alignment. Extensive experiments on the AVS-Objects and VPO benchmarks demonstrate that DDAVS consistently outperforms existing approaches, exhibiting strong performance across single-source, multi-source, and multi-instance scenarios. These results validate the effectiveness and generalization ability of our framework under challenging real-world audio-visual segmentation conditions. Project page: https://trilarflagz.github.io/DDAVS-page/


翻译:视听分割(AVS)旨在通过联合利用听觉与视觉信息,在像素级别定位发声物体。然而,现有方法常受多源纠缠与视听错位问题困扰,导致模型偏向于更响亮或更大的物体,而忽略较弱、较小或共现的声源。为应对这些挑战,我们提出DDAVS——一种解耦音频语义与延迟双向对齐的框架。为缓解多源纠缠问题,DDAVS采用可学习查询来提取音频语义,并将其锚定在基于音频原型记忆库构建的结构化语义空间中。该机制通过对比学习进一步优化,以增强判别性与鲁棒性。为减轻视听错位问题,DDAVS引入具有延迟模态交互的双重交叉注意力机制,提升多模态对齐的鲁棒性。在AVS-Objects与VPO基准上的大量实验表明,DDAVS在单源、多源及多实例场景中均持续超越现有方法,展现出卓越性能。这些结果验证了我们框架在具有挑战性的真实世界视听分割条件下的有效性与泛化能力。项目页面:https://trilarflagz.github.io/DDAVS-page/

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员