We propose a multi-channel speech enhancement approach with a novel two-stage feature fusion method and a pre-trained acoustic model in a multi-task learning paradigm. In the first fusion stage, the time-domain and frequency-domain features are extracted separately. In the time domain, the multi-channel convolution sum (MCS) and the inter-channel convolution differences (ICDs) features are computed and then integrated with the first 2-D convolutional layer, while in the frequency domain, the log-power spectra (LPS) features from both original channels and super-directive beamforming outputs are combined with a second 2-D convolutional layer. To fully integrate the rich information of multi-channel speech, i.e. time-frequency domain features and the array geometry, we apply a third 2-D convolutional layer in the second fusion stage to obtain the final convolutional features. Furthermore, we propose to use a fixed clean acoustic model trained with the end-to-end lattice-free maximum mutual information criterion to enforce the enhanced output to have the same distribution as the clean waveform to alleviate the over-estimation problem of the enhancement task and constrain distortion. On the Task1 development dataset of ConferencingSpeech 2021 challenge, a PESQ improvement of 0.24 and 0.19 is attained compared to the official baseline and a recently proposed multi-channel separation method.


翻译:我们建议采用多声道语音增强方法,采用新型的两阶段特征融合方法和多任务学习范式中经过预先训练的声学模型。在合并的第一阶段,时间-空间和频率-域特性分开分离。在时间域中,多声道连动和气道连动差异(MCS)特性进行计算,然后与第一个2层电动差异(ICD)结合。在频率域中,原频道和超向波成型超级波段的日电源光谱(LPS)特性与第二个2-D进化层的高级声频模型相结合。为了充分整合多声道讲话的丰富信息,即时间-频率域特性和阵列地理测量,我们在第二个电流阶段应用第三个2-D电道电动层,以获得最后的电动特性。此外,我们提议使用一个固定的清洁音响模型,在零至端无顶层的最大相互信息标准下,用强化的2D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-A-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-D-

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
专知会员服务
31+阅读 · 2021年6月12日
中国AI语音识别市场研究报告(附PDF下载)
专知会员服务
77+阅读 · 2020年12月30日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
14+阅读 · 2019年10月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
已删除
将门创投
6+阅读 · 2017年11月27日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
计算机视觉领域顶会CVPR 2018 接受论文列表
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
已删除
将门创投
6+阅读 · 2017年11月27日
Top
微信扫码咨询专知VIP会员