The intelligibility of speech severely degrades in the presence of environmental noise and reverberation. In this paper, we propose a novel deep learning based system for modifying the speech signal to increase its intelligibility under the equal-power constraint, i.e., signal power before and after modification must be the same. To achieve this, we use generative adversarial networks (GANs) to obtain time-frequency dependent amplification factors, which are then applied to the input raw speech to reallocate the speech energy. Instead of optimizing only a single, simple metric, we train a deep neural network (DNN) model to simultaneously optimize multiple advanced speech metrics, including both intelligibility- and quality-related ones, which results in notable improvements in performance and robustness. Our system can not only work in non-realtime mode for offline audio playback but also support practical real-time speech applications. Experimental results using both objective measurements and subjective listening tests indicate that the proposed system significantly outperforms state-ofthe-art baseline systems under various noisy and reverberant listening conditions.


翻译:语音的可感知性在出现环境噪音和反响时会严重退化。 在本文中,我们提出一个新的深层学习基础系统,以修改语音信号,从而在平等功率限制下增加其可知性,即修改前后的信号力必须相同。为此,我们使用基因对抗网络(GANs)获取基于时间频率的扩增系数,然后将这些因素应用到输入原始演讲中,以重新分配语音能量。我们不只优化单一的简单度量度,而是培训一个深神经网络(DNN)模型,以同时优化多个高级语音计量,包括智能度和质量相关计量,从而显著改善性能和稳健性。我们的系统不仅可以在非实时模式下运行音频回播,而且还支持实用的实时语音应用。使用客观测量和主观听觉测试的实验结果表明,拟议的系统在各种噪音和回声监听条件下大大优于最先进的基线系统。

0
下载
关闭预览

相关内容

最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
69+阅读 · 2020年10月24日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Phase-aware Speech Enhancement with Deep Complex U-Net
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员