Recently, self-supervised learning (SSL) techniques have been introduced to solve the monaural speech enhancement problem. Due to the lack of using clean phase information, the enhancement performance is limited in most SSL methods. Therefore, in this paper, we propose a phase-aware self-supervised learning based monaural speech enhancement method. The latent representations of both amplitude and phase are studied in two decoders of the foundation autoencoder (FAE) with only a limited set of clean speech signals independently. Then, the downstream autoencoder (DAE) learns a shared latent space between the clean speech and mixture representations with a large number of unseen mixtures. A complex-cycle-consistent (CCC) mechanism is proposed to minimize the reconstruction loss between the amplitude and phase domains. Besides, it is noticed that if the speech features are extracted as the multi-resolution spectra, the desired information distributed in spectra of different scales can be studied to further boost the performance. The NOISEX and DAPS corpora are used to generate mixtures with different interferences to evaluate the efficacy of the proposed method. It is highlighted that the clean speech and mixtures fed in FAE and DAE are not paired. Both ablation and comparison experimental results show that the proposed method clearly outperforms the state-of-the-art approaches.


翻译:最近,引入了自我监督学习(SSL)技术以解决调音强化问题。由于缺乏使用清洁阶段信息,大多数 SLL 方法中增强性能有限。因此,我们在本文件中提议采用基于调音强化法的逐步自监管学习自监管语言强化方法,在自动调音强化法基金会的两个解码器中研究振幅和阶段的潜在表现,独立地仅使用一套有限的清洁语音信号。然后,下游自动调解调器(DAE)学习清洁言语和混合表达形式与大量无形混合物之间共享的潜在空间。建议采用一个复杂的周期一致机制,以尽量减少振动和阶段语音增强法之间的重建损失。此外,人们注意到,如果调音特征作为多分辨率光谱提取,则可以研究不同尺度光谱中传播的预期信息,以进一步提升性能。NOISEX 和 DAPS 公司被用于生成含有不同干扰的混合物,以评价拟议方法的功效。在AFA-R-FA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FS-C-FS-C-FS-FS-FS-FS-FS-B-FS-FS-FS-FS-C-FS-C-C-C-C-C-C-C-C-C-C-C-C-FS-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-C-FAT-C-FAFAFAFAFAFAFA-FA-FA-FAFA-FA-FAFAFA-FA-FAFAFA-FA-FA-FA-FA-FA-FA-FA-FA-FA-FAFAFA-FAFA-FA-FA-FA-FA-FA-FA-F

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
124+阅读 · 2021年7月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
124+阅读 · 2021年7月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员