研究人员提出一种新的语谱引导滤波语音去混响方法 - 专知

会员服务 ·

0

研究人员提出一种新的语谱引导滤波语音去混响方法

2018 年 4 月 26 日 中科院之声

中国科学院声学研究所噪声与振动重点实验室副研究员郑成诗及其同事提出一种语谱引导滤波语音去混响方法，无需估计晚期混响功率谱和房间声学参数，运算量明显低于传统语音去混响方法，同时能显著提高语音质量。相关研究成果已在线发表于国际学术期刊Applied Acoustics。

已有研究表明，晚期混响声会不同程度地降低语音可懂度及其人机交互语音识别性能，如何有效抑制晚期混响声是近年的研究难点和热点。

单通道晚期混响抑制方法包括谱减法和基于高阶累量的方法等。基于高阶累量的方法，包括Kurtosis最大化和Skewness最大化这两种方法，运算量较大；基于谱减的方法，尽管运算量小、性能稳定，但是需要估计晚期混响功率谱或者房间声学参数。

双边滤波 (Bilateral Filtering)和引导滤波(Guided Filtering)是两种比较经典的图像处理方法，都可以用于保持图像边缘，实现图像增强。相比较而言，引导滤波运算量更低、处理结果更为稳定。因此，引导滤波在图像去雾、边缘提取以及细节平滑等方面得到了广泛的应用。

相比于纯净语音语谱图，混响语音语谱图就像是给纯净语音语谱图蒙上了一层雾。郑成诗在丹麦奥尔堡大学访问期间，曾与奥尔堡大学的教授一起尝试研究图像去雾算法应用于语音去混响，通过分析和实验证明了语谱引导滤波在去混响方面的性能。

语音语谱图有其自身特点，例如语谱在频率轴上的相关性一般要远小于语音在时间轴的相关性。在此基础上，郑成诗及其团队对应用于图像的引导滤波进行了拓展，使其更适用于语谱图增强。

相比传统的方法，该研究提出的语谱引导滤波语音去混响方法在主观语音质量评估（Perceptual Evaluation of Speech Quality, 简称PESQ）得分和短时客观可懂度( Short-Time Objective Intelligibility, 简称STOI)得分等方面优势显著，而且算法时间复杂度为O(1)。从语谱图看，晚期混响造成的拖尾效应也已得到有效抑制。

该研究得到了国家自然科学基金委的项目支持。

论文信息：ZHENG Chengshi, TAN Zhenghua, PENG Renhua, LI Xiaodong. Guided Spectrogram Filtering for Speech Dereverberation. Applied Acoustics (Volume 134, May 2018, Pages 154-159). DOI: 10.1016/j.apacoust.2017.11.016

用图像引导滤波去雾算法结果（左：去雾前；右：去雾后）

净语音和混响语音的时域图和语谱图

纯净语音和采用引导语谱滤波去噪去混响方法处理结果的时域图和语谱图

来源：中国科学院声学研究所

登录查看更多

1

相关内容

【KDD2020】自适应多通道图卷积神经网络

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

基于生成对抗网络的模仿学习综述, 苏州大学，计算机学报

专知会员服务

47+阅读 · 2020年2月1日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

专知会员服务

11+阅读 · 2019年12月6日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

专知会员服务

24+阅读 · 2019年11月20日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

Bayesian Deep Learning for Medical(贝叶斯深度学习在医学图像中的处理)，德克萨斯大学西南医学中心 Dan Nguyen

Bayesian Deep Learning for Medical(贝叶斯深度学习在医学图像中的处理)，德克萨斯大学西南医学中心 Dan Nguyen

专知会员服务

29+阅读 · 2019年11月4日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

CVPR2019 | ASRCF：基于自适应空间加权相关滤波的视觉跟踪研究（即将开源）

CVPR2019 | ASRCF：基于自适应空间加权相关滤波的视觉跟踪研究（即将开源）

极市平台

23+阅读 · 2019年5月18日

近期声学领域前沿论文（No. 4）

近期声学领域前沿论文（No. 4）

深度学习每日摘要

7+阅读 · 2019年5月1日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

机器之心

4+阅读 · 2018年7月24日

【紫冬声音】自动化所智能交互团队在噪声环境下语音识别性能方面取得新进展

【紫冬声音】自动化所智能交互团队在噪声环境下语音识别性能方面取得新进展

中国自动化学会

5+阅读 · 2018年6月12日

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

引力空间站

6+阅读 · 2018年4月17日

红外弱小目标处理研究获进展

红外弱小目标处理研究获进展

中科院之声

18+阅读 · 2017年11月19日

业界 | 腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

业界 | 腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

AI科技评论

7+阅读 · 2017年8月24日

上下文感知相关滤波跟踪

上下文感知相关滤波跟踪

统计学习与视觉计算组

6+阅读 · 2017年6月17日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

Arxiv

7+阅读 · 2019年10月21日

Scene-based Factored Attention for Image Captioning

Arxiv

4+阅读 · 2019年8月7日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

Learning When Not to Answer: A Ternary Reward Structure for Reinforcement Learning based Question Answering

Arxiv

6+阅读 · 2019年4月3日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

Learning beyond datasets: Knowledge Graph Augmented Neural Networks for Natural language Processing

Arxiv

11+阅读 · 2018年2月16日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

VIP会员

相关主题

相关VIP内容

【KDD2020】自适应多通道图卷积神经网络

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

基于生成对抗网络的模仿学习综述, 苏州大学，计算机学报

专知会员服务

47+阅读 · 2020年2月1日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》

专知会员服务

11+阅读 · 2019年12月6日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

【CIKM 2019论文】哈希图卷积在节点分类中的应用（Hashing Graph Convolution for Node Classification），崔振

专知会员服务

24+阅读 · 2019年11月20日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

【CCF优秀博士学位论文奖-2019】基于路径依赖关系的循环分析技术研究，天津大学谢肖飞

专知会员服务

20+阅读 · 2019年11月8日

Bayesian Deep Learning for Medical(贝叶斯深度学习在医学图像中的处理)，德克萨斯大学西南医学中心 Dan Nguyen

Bayesian Deep Learning for Medical(贝叶斯深度学习在医学图像中的处理)，德克萨斯大学西南医学中心 Dan Nguyen

专知会员服务

29+阅读 · 2019年11月4日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

CVPR2019 | ASRCF：基于自适应空间加权相关滤波的视觉跟踪研究（即将开源）

CVPR2019 | ASRCF：基于自适应空间加权相关滤波的视觉跟踪研究（即将开源）

极市平台

23+阅读 · 2019年5月18日

近期声学领域前沿论文（No. 4）

近期声学领域前沿论文（No. 4）

深度学习每日摘要

7+阅读 · 2019年5月1日

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

腾讯AI Lab 8篇论文入选，从0到1解读语音交互能力 | InterSpeech 2018

AI科技评论

12+阅读 · 2018年9月7日

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

学界 | 语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

机器之心

4+阅读 · 2018年7月24日

【紫冬声音】自动化所智能交互团队在噪声环境下语音识别性能方面取得新进展

【紫冬声音】自动化所智能交互团队在噪声环境下语音识别性能方面取得新进展

中国自动化学会

5+阅读 · 2018年6月12日

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

引力空间站

6+阅读 · 2018年4月17日

红外弱小目标处理研究获进展

红外弱小目标处理研究获进展

中科院之声

18+阅读 · 2017年11月19日

业界 | 腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

业界 | 腾讯论文入选Interspeech 2017：在单通道语音分离中应用的深度神经网路的训练优化

AI科技评论

7+阅读 · 2017年8月24日

上下文感知相关滤波跟踪

上下文感知相关滤波跟踪

统计学习与视觉计算组

6+阅读 · 2017年6月17日

相关论文

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis

Arxiv

7+阅读 · 2019年10月21日

Scene-based Factored Attention for Image Captioning

Arxiv

4+阅读 · 2019年8月7日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

Learning When Not to Answer: A Ternary Reward Structure for Reinforcement Learning based Question Answering

Arxiv

6+阅读 · 2019年4月3日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Using Ternary Rewards to Reason over Knowledge Graphs with Deep Reinforcement Learning

Arxiv

3+阅读 · 2019年2月26日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

Learning beyond datasets: Knowledge Graph Augmented Neural Networks for Natural language Processing

Arxiv

11+阅读 · 2018年2月16日

Denoising Adversarial Autoencoders

Arxiv

9+阅读 · 2018年1月4日

大家都在搜

国防科技创新

CMU博士论文

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员