Due to the unprecedented breakthroughs brought about by deep learning, speech enhancement (SE) techniques have been developed rapidly and play an important role prior to acoustic modeling to mitigate noise effects on speech. To increase the perceptual quality of speech, current state-of-the-art in the SE field adopts adversarial training by connecting an objective metric to the discriminator. However, there is no guarantee that optimizing the perceptual quality of speech will necessarily lead to improved automatic speech recognition (ASR) performance. In this study, we present TENET, a novel Time-reversal Enhancement NETwork, which leverages the transformation of an input noisy signal itself, i.e., the time-reversed version, in conjunction with the siamese network and complex dual-path transformer to promote SE performance for noise-robust ASR. Extensive experiments conducted on the Voicebank-DEMAND dataset show that TENET can achieve state-of-the-art results compared to a few top-of-the-line methods in terms of both SE and ASR evaluation metrics. To demonstrate the model generalization ability, we further evaluate TENET on the test set of scenarios contaminated with unseen noise, and the results also confirm the superiority of this promising method.


翻译:由于深层学习带来的前所未有的突破,语音增强技术得到迅速发展,在采用声学模型之前发挥重要作用,以减轻对语言的噪音影响。为了提高语言的感知质量,SE领域目前最先进的艺术通过将客观指标与歧视者联系起来,采取对抗性培训。然而,不能保证优化语言的感知质量必然导致提高自动语音识别(ASR)性能。在本研究中,我们介绍了一种新型的TENET,即时反向增强新颖的NETwork,它利用了输入的噪音信号本身的转换,即时间反转版本,与Siames网络和复杂的双向变异器一起,促进SE的音性能。在Voicebank-DEAND数据集上进行的广泛实验显示,与SE和ASR评价指标方面的少数最高级方法相比,TENET能够取得最新的结果。为了展示模型的普及能力,我们进一步评估了这一令人乐观的、高超能度、高能度、高能测测测测测测度方法。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
最新《生成式对抗网络GAN时空数据应用》综述论文,28pdf
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
5+阅读 · 2020年10月14日
Arxiv
6+阅读 · 2019年9月25日
Phase-aware Speech Enhancement with Deep Complex U-Net
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Arxiv
12+阅读 · 2019年2月28日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
最新《生成式对抗网络GAN时空数据应用》综述论文,28pdf
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
Top
微信扫码咨询专知VIP会员