We propose DeepASA, a multi-purpose model for auditory scene analysis that performs multi-input multi-output (MIMO) source separation, dereverberation, sound event detection (SED), audio classification, and direction-of-arrival estimation (DoAE) within a unified framework. DeepASA is designed for complex auditory scenes where multiple, often similar, sound sources overlap in time and move dynamically in space. To achieve robust and consistent inference across tasks, we introduce an object-oriented processing (OOP) strategy. This approach encapsulates diverse auditory features into object-centric representations and refines them through a chain-of-inference (CoI) mechanism. The pipeline comprises a dynamic temporal kernel-based feature extractor, a transformer-based aggregator, and an object separator that yields per-object features. These features feed into multiple task-specific decoders. Our object-centric representations naturally resolve the parameter association ambiguity inherent in traditional track-wise processing. However, early-stage object separation can lead to failure in downstream ASA tasks. To address this, we implement temporal coherence matching (TCM) within the chain-of-inference, enabling multi-task fusion and iterative refinement of object features using estimated auditory parameters. We evaluate DeepASA on representative spatial audio benchmark datasets, including ASA2, MC-FUSS, and STARSS23. Experimental results show that our model achieves state-of-the-art performance across all evaluated tasks, demonstrating its effectiveness in both source separation and auditory parameter estimation under diverse spatial auditory scenes.


翻译:本文提出DeepASA,一种用于听觉场景分析的多用途模型,能够在统一框架内执行多输入多输出(MIMO)源分离、去混响、声音事件检测(SED)、音频分类和到达方向估计(DoAE)。DeepASA专为复杂的听觉场景设计,其中多个(通常相似的)声源在时间上重叠并在空间中动态移动。为实现跨任务的鲁棒且一致的推理,我们引入面向对象处理(OOP)策略。该方法将多样化的听觉特征封装为以对象为中心的表示,并通过推理链(CoI)机制进行优化。该流程包含基于动态时间核的特征提取器、基于Transformer的聚合器以及生成逐对象特征的对象分离器。这些特征输入到多个任务特定的解码器中。我们以对象为中心的表示自然解决了传统轨迹式处理中固有的参数关联模糊性问题。然而,早期阶段的对象分离可能导致下游ASA任务失败。为解决此问题,我们在推理链中实现了时间一致性匹配(TCM),利用估计的听觉参数实现多任务融合和对象特征的迭代优化。我们在代表性空间音频基准数据集(包括ASA2、MC-FUSS和STARSS23)上评估DeepASA。实验结果表明,我们的模型在所有评估任务中均达到最先进的性能,证明了其在多样化空间听觉场景下源分离和听觉参数估计方面的有效性。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员