In this paper, we propose a novel four-stage data augmentation approach to ResNet-Conformer based acoustic modeling for sound event localization and detection (SELD). First, we explore two spatial augmentation techniques, namely audio channel swapping (ACS) and multi-channel simulation (MCS), to deal with data sparsity in SELD. ACS and MDS focus on augmenting the limited training data with expanding direction of arrival (DOA) representations such that the acoustic models trained with the augmented data are robust to localization variations of acoustic sources. Next, time-domain mixing (TDM) and time-frequency masking (TFM) are also investigated to deal with overlapping sound events and data diversity. Finally, ACS, MCS, TDM and TFM are combined in a step-by-step manner to form an effective four-stage data augmentation scheme. Tested on the Detection and Classification of Acoustic Scenes and Events (DCASE) 2020 data sets, our proposed augmentation approach greatly improves the system performance, ranking our submitted system in the first place in the SELD task of DCASE 2020 Challenge. Furthermore, we employ a ResNet-Conformer architecture to model both global and local context dependencies of an audio sequence to yield further gains over those architectures used in the DCASE 2020 SELD evaluations.


翻译:在本文中,我们提出一个新的四阶段数据增强办法,用于ResNet-Conder软件的声学模型,用于声音事件定位和检测。首先,我们探索两种空间增强技术,即音信道互换(ACS)和多声道模拟(MCS),以应对SELD的数据宽度。ACS和MDS侧重于扩大有限的培训数据,扩大抵达方向(DOA),使经过强化数据培训的声学模型对声学源的本地化变异具有很强的功能。接下来,还调查了时间间隔混合(TDM)和时频遮罩(TFM),以处理重叠的声学事件和数据多样性。最后,ACS、MCS、TDM和TFM以逐步方式结合,形成一个有效的四阶段数据增强计划。根据2020年声学和事件探测和分类(DCASE)数据集进行测试,我们提议的扩增能力方法大大改进了系统性,将我们提交的系统排在2020年DCASE挑战SE任务中的第一个位置,我们使用了2020年SEM-CRE的SAS基础,进一步运用了2020年的SEASIM结构。

0
下载
关闭预览

相关内容

【ECCV2020】OCRNet化解语义分割上下文信息缺失难题
专知会员服务
17+阅读 · 2020年8月24日
【DeepMind】强化学习教程,83页ppt
专知会员服务
155+阅读 · 2020年8月7日
专知会员服务
110+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员