With the recent surge of video conferencing tools usage, providing high-quality speech signals and accurate captions have become essential to conduct day-to-day business or connect with friends and families. Single-channel personalized speech enhancement (PSE) methods show promising results compared with the unconditional speech enhancement (SE) methods in these scenarios due to their ability to remove interfering speech in addition to the environmental noise. In this work, we leverage spatial information afforded by microphone arrays to improve such systems' performance further. We investigate the relative importance of speaker embeddings and spatial features. Moreover, we propose a new causal array-geometry-agnostic multi-channel PSE model, which can generate a high-quality enhanced signal from arbitrary microphone geometry. Experimental results show that the proposed geometry agnostic model outperforms the model trained on a specific microphone array geometry in both speech quality and automatic speech recognition accuracy. We also demonstrate the effectiveness of the proposed approach for unseen array geometries.


翻译:随着最近电视会议工具的使用激增,提供了高质量的语音信号和准确的字幕,这对开展日常业务或与朋友和家人联系至关重要。单一通道个人化语音增强方法与这些假设情景中无条件语音增强方法相比,显示了有希望的结果,因为这些方法除环境噪音外还能够消除干扰性言论。在这项工作中,我们利用麦克风阵列提供的空间信息来进一步改进这些系统的性能。我们调查了发言者嵌入和空间特征的相对重要性。此外,我们提出了一个新的因果阵列多频道PSE模型,该模型能够产生来自任意麦克风几何测量的高品质增强信号。实验结果表明,拟议的几何计量模型在语音质量和自动语音识别准确性两方面都超过了在特定麦克风阵列几何测量方面受过训练的模型。我们还展示了拟用于隐性阵列几何地理模型的有效性。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
专知会员服务
31+阅读 · 2021年7月26日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
计算机 | 国际会议信息5条
Call4Papers
3+阅读 · 2019年7月3日
计算机 | 入门级EI会议ICVRIS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年6月24日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【今日新增】计算机领域国际会议截稿信息
Call4Papers
9+阅读 · 2017年7月21日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年7月26日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
Top
微信扫码咨询专知VIP会员