The purpose of speech enhancement is to extract target speech signal from a mixture of sounds generated from several sources. Speech enhancement can potentially benefit from the visual information from the target speaker, such as lip move-ment and facial expressions, because the visual aspect of speech isessentially unaffected by acoustic environment. In order to fuse audio and visual information, an audio-visual fusion strategy is proposed, which goes beyond simple feature concatenation and learns to automatically align the two modalities, leading to more powerful representation which increase intelligibility in noisy conditions. The proposed model fuses audio-visual featureslayer by layer, and feed these audio-visual features to each corresponding decoding layer. Experiment results show relative improvement from 6% to 24% on test sets over the audio modalityalone, depending on audio noise level. Moreover, there is a significant increase of PESQ from 1.21 to 2.06 in our -15 dB SNR experiment.


翻译:增强语音的目的是从若干来源产生的声音混合中提取目标语音信号。增强语音可能受益于来自目标发言者的视觉信息,如嘴动和面部表达,因为声音的视觉方面基本上不受声学环境的影响。为了整合音频和视觉信息,提出了视听融合战略,该战略超越简单的特征融合,学会自动调整两种模式,从而在吵闹的条件下提高能见度。拟议模型将视听特征层按层进行整合,并将这些视听特征提供给相应的解码层。实验结果显示,视音响程度而定,在音频模式单体上测试器上从6%到24%的相对改善。此外,在我们 - 15 DNR 实验中,PESQ从1.21%增加到2.06。

1
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
Fully-Convolutional Siamese Networks for Object Tracking论文笔记
统计学习与视觉计算组
9+阅读 · 2018年10月12日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
6+阅读 · 2019年4月8日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
39+阅读 · 2020年9月9日
Top
微信扫码咨询专知VIP会员