深度语音增强挑战ICASSP 2023 (ICASSP 2023 Deep Speech Enhancement Challenge)

Harishchandra Dubey,Ashkan Aazami,Vishak Gopal,Babak Naderi,Sebastian Braun,Ross Cutler,Alex Ju,Mehdi Zohourian,Min Tang,Hannes Gamper,Mehrsa Golestaneh,Robert Aichner

from arxiv, 6 pages, 1 figure. arXiv admin note: text overlap with arXiv:2202.13288

Deep Speech Enhancement Challenge is the 5th edition of deep noise suppression (DNS) challenges organized at ICASSP 2023 Signal Processing Grand Challenges. DNS challenges were organized during 2019-2023 to stimulate research in deep speech enhancement (DSE). Previous DNS challenges were organized at INTERSPEECH 2020, ICASSP 2021, INTERSPEECH 2021, and ICASSP 2022. From prior editions, we learnt that improving signal quality (SIG) is challenging particularly in presence of simultaneously active interfering talkers and noise. This challenge aims to develop models for joint denosing, dereverberation and suppression of interfering talkers. When primary talker wears a headphone, certain acoustic properties of their speech such as direct-to-reverberation (DRR), signal to noise ratio (SNR) etc. make it possible to suppress neighboring talkers even without enrollment data for primary talker. This motivated us to create two tracks for this challenge: (i) Track-1 Headset; (ii) Track-2 Speakerphone. Both tracks has fullband (48kHz) training data and testset, and each testclips has a corresponding enrollment data (10-30s duration) for primary talker. Each track invited submissions of personalized and non-personalized models all of which are evaluated through same subjective evaluation. Most models submitted to challenge were personalized models, same team is winner in both tracks where the best models has improvement of 0.145 and 0.141 in challenge's Score as compared to noisy blind testset.

翻译：深度语音增强挑战是ICASSP2023信号处理大挑战中关于深度噪声抑制（DNS）的第五届挑战。DNS挑战是在2019年至2023年期间组织的，旨在促进深度语音增强（DSE）的研究。以前的DNS挑战分别在INTERSPEECH2020、ICASSP2021、INTERSPEECH2021和ICASSP2022上组织。从以前的版本中，我们了解到即使在同时存在干扰者和噪声的情况下，改善信号质量（SIG）也很具有挑战性。此挑战旨在开发联合去噪、去混响和干扰者抑制的模型。当主要发言人戴着耳机时，他们的许多语音声学属性，例如直接-混响比（DRR）、信噪比（SNR）等，可以在没有主要发言人注册数据时抑制相邻的发言人。这激发了我们为此挑战创建两个轨道：（i）轨道1 耳机；（ii）轨道2 免提电话。两个轨道都有全频带（48kHz）的训练数据和测试集，并且每个测试剪辑都有相应的主要发言人注册数据（持续时间为10-30秒）。每个轨道都邀请提交个性化和非个性化模型，所有模型都通过相同的主观评估进行评估。挑战提交的大多数模型都是个性化模型，同一团队在两个轨道中获胜，最佳模型在挑战的得分方面与嘈杂的盲测试集相比有0.145和0.141的提高。

相关内容

ICASSP

关注 4

ICASSP是全球最大，最全面的技术会议，重点是信号处理及其应用。会议主题包括但不限于以下主题：音频和声音信号处理、量子信号处理、生物医学信号与图像处理、遥感与信号处理、压缩感知，采样和字典学习、传感器阵列和多通道信号处理、信号处理的设计与实现、大数据信号处理、财务信号处理。官网地址：http://dblp.uni-trier.de/db/conf/icassp/