Polyphonic sound event localization and detection (SELD) has many practical applications in acoustic sensing and monitoring. However, the development of real-time SELD has been limited by the demanding computational requirement of most recent SELD systems. In this work, we introduce SALSA-Lite, a fast and effective feature for polyphonic SELD using microphone array inputs. SALSA-Lite is a lightweight variation of a previously proposed SALSA feature for polyphonic SELD. SALSA, which stands for Spatial Cue-Augmented Log-Spectrogram, consists of multichannel log-spectrograms stacked channelwise with the normalized principal eigenvectors of the spectrotemporally corresponding spatial covariance matrices. In contrast to SALSA, which uses eigenvector-based spatial features, SALSA-Lite uses normalized inter-channel phase differences as spatial features, allowing a 30-fold speedup compared to the original SALSA feature. Experimental results on the TAU-NIGENS Spatial Sound Events 2021 dataset showed that the SALSA-Lite feature achieved competitive performance compared to the full SALSA feature, and significantly outperformed the traditional feature set of multichannel log-mel spectrograms with generalized cross-correlation spectra. Specifically, using SALSA-Lite features increased localization-dependent F1 score and class-dependent localization recall by 15% and 5%, respectively, compared to using multichannel log-mel spectrograms with generalized cross-correlation spectra.


翻译:SALSA-Lite是先前提议的 SALSA 用于多功能 SELLD 的 SALSA 特性的轻量变异。 SALSA 是一个用于多功能 SELD 的 SALSA 特性,它代表着空间Cue-Augment-多频谱仪-Spectrotrogram, 由最近SELD系统要求的严格计算要求组成的实时 SELD 发展受到限制。在这项工作中,我们采用麦克风阵列输入的多功能SALSA-Lite,这是多功能阵列 SALSA 中一个快速有效的功能。 SALSA 的SALSA 特性是多功能,与原始的SALSA 直径直流分级数相比,SA-NIGENS Sectrocrocrographram 由多功能堆叠叠合而成的频道,与光谱-SALLLSA 和SAL-SAL-SAL 级平流-SAL-SAL-SAL-CSA 特点相比,与SAL-SAL-C-SAL-C-SAL-SAL-SAL-CL-SAL-C-C-C-SAL-C-C-C-Cl-SL-SL-C-C-C-SL-C-C-C-C-C-C-SL-SL-SL-C-C-C-C-C-SL-SL-C-SL-SL-SL-SL-C-C-C-C-SL-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-

0
下载
关闭预览

相关内容

FAST:Conference on File and Storage Technologies。 Explanation:文件和存储技术会议。 Publisher:USENIX。 SIT:http://dblp.uni-trier.de/db/conf/fast/
【硬核书】矩阵代数基础,248页pdf
专知会员服务
86+阅读 · 2021年12月9日
专知会员服务
33+阅读 · 2021年9月16日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
101+阅读 · 2020年3月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
4+阅读 · 2017年7月7日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
8+阅读 · 2018年5月17日
VIP会员
相关VIP内容
【硬核书】矩阵代数基础,248页pdf
专知会员服务
86+阅读 · 2021年12月9日
专知会员服务
33+阅读 · 2021年9月16日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
101+阅读 · 2020年3月9日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员