研究人员提出一种新的语谱引导滤波语音去混响方法

2018 年 4 月 26 日 中科院之声

中国科学院声学研究所噪声与振动重点实验室副研究员郑成诗及其同事提出一种语谱引导滤波语音去混响方法,无需估计晚期混响功率谱和房间声学参数,运算量明显低于传统语音去混响方法,同时能显著提高语音质量。相关研究成果已在线发表于国际学术期刊Applied Acoustics。


已有研究表明,晚期混响声会不同程度地降低语音可懂度及其人机交互语音识别性能,如何有效抑制晚期混响声是近年的研究难点和热点。


单通道晚期混响抑制方法包括谱减法和基于高阶累量的方法等。基于高阶累量的方法,包括Kurtosis最大化和Skewness最大化这两种方法,运算量较大;基于谱减的方法,尽管运算量小、性能稳定,但是需要估计晚期混响功率谱或者房间声学参数。


双边滤波 (Bilateral Filtering)和引导滤波(Guided Filtering)是两种比较经典的图像处理方法,都可以用于保持图像边缘,实现图像增强。相比较而言,引导滤波运算量更低、处理结果更为稳定。因此,引导滤波在图像去雾、边缘提取以及细节平滑等方面得到了广泛的应用。


相比于纯净语音语谱图,混响语音语谱图就像是给纯净语音语谱图蒙上了一层雾。郑成诗在丹麦奥尔堡大学访问期间,曾与奥尔堡大学的教授一起尝试研究图像去雾算法应用于语音去混响,通过分析和实验证明了语谱引导滤波在去混响方面的性能。


语音语谱图有其自身特点,例如语谱在频率轴上的相关性一般要远小于语音在时间轴的相关性。在此基础上,郑成诗及其团队对应用于图像的引导滤波进行了拓展,使其更适用于语谱图增强。


相比传统的方法,该研究提出的语谱引导滤波语音去混响方法在主观语音质量评估(Perceptual Evaluation of Speech Quality, 简称PESQ)得分和短时客观可懂度( Short-Time Objective Intelligibility, 简称STOI)得分等方面优势显著,而且算法时间复杂度为O(1)。从语谱图看,晚期混响造成的拖尾效应也已得到有效抑制。


该研究得到了国家自然科学基金委的项目支持。


论文信息:ZHENG Chengshi, TAN Zhenghua, PENG Renhua, LI Xiaodong. Guided Spectrogram Filtering for Speech Dereverberation. Applied Acoustics (Volume 134, May 2018, Pages 154-159). DOI: 10.1016/j.apacoust.2017.11.016



用图像引导滤波去雾算法结果(左:去雾前;右:去雾后)



净语音和混响语音的时域图和语谱图


纯净语音和采用引导语谱滤波去噪去混响方法处理结果的时域图和语谱图


来源:中国科学院声学研究所




登录查看更多
1

相关内容

【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
红外弱小目标处理研究获进展
中科院之声
17+阅读 · 2017年11月19日
上下文感知相关滤波跟踪
统计学习与视觉计算组
6+阅读 · 2017年6月17日
Arxiv
4+阅读 · 2019年8月7日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
Top
微信扫码咨询专知VIP会员