Curriculum learning begins to thrive in the speech enhancement area, which decouples the original spectrum estimation task into multiple easier sub-tasks to achieve better performance. Motivated by that, we propose a dual-branch attention-in-attention transformer dubbed DB-AIAT to handle both coarse- and fine-grained regions of the spectrum in parallel. From a complementary perspective, a magnitude masking branch is proposed to coarsely estimate the overall magnitude spectrum, and simultaneously a complex refining branch is elaborately designed to compensate for the missing spectral details and implicitly derive phase information. Within each branch, we propose a novel attention-in-attention transformer-based module to replace the conventional RNNs and temporal convolutional networks for temporal sequence modeling. Specifically, the proposed attention-in-attention transformer consists of adaptive temporal-frequency attention transformer blocks and an adaptive hierarchical attention module, aiming to capture long-term temporal-frequency dependencies and further aggregate global hierarchical contextual information. Experimental results on Voice Bank + DEMAND demonstrate that DB-AIAT yields state-of-the-art performance (e.g., 3.31 PESQ, 95.6% STOI and 10.79dB SSNR) over previous advanced systems with a relatively small model size (2.81M).


翻译:语言增强领域的课程学习开始蓬勃发展,使最初的频谱估计任务分化为多个更加容易的子任务,以取得更好的业绩。为此,我们提议一个名为DB-AIAT的双部门关注点和注意点变压器,以同时处理光谱中粗略和细微的变压器。从互补的角度出发,提议一个规模遮盖分支,以粗略估计总体规模的频谱,同时,一个复杂的精炼分支正在精心设计,以弥补缺失的光谱细节,并隐含地获取阶段信息。在每一个分支中,我们提出一个新的关注点变压器模块,以取代传统的RNNS和时间动态网络进行时间序列建模。具体地说,拟议的注意点变压器包括适应性时间频率变压器块和一个适应性分级关注模块,目的是捕捉长期的时频依赖性和进一步汇总的全球等级背景信息。语音银行+DEAANDAND的实验结果显示,DB-AIAT以关注点变换为状态模型,10.79M.M.M.

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
4+阅读 · 2019年8月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Phase-aware Speech Enhancement with Deep Complex U-Net
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
已删除
将门创投
4+阅读 · 2019年8月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
相关论文
Phase-aware Speech Enhancement with Deep Complex U-Net
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年11月27日
Top
微信扫码咨询专知VIP会员