The state-of-the-art speech enhancement has limited performance in speech estimation accuracy. Recently, in deep learning, the Transformer shows the potential to exploit the long-range dependency in speech by self-attention. Therefore, it is introduced in speech enhancement to improve the speech estimation accuracy from a noise mixture. However, to address the computational cost issue in Transformer with self-attention, the axial attention is the option i.e., to split a 2D attention into two 1D attentions. Inspired by the axial attention, in the proposed method we calculate the attention map along both time- and frequency-axis to generate time and frequency sub-attention maps. Moreover, different from the axial attention, the proposed method provides two parallel multi-head attentions for time- and frequency-axis. Furthermore, it is proven in the literature that the lower frequency-band in speech, generally, contains more desired information than the higher frequency-band, in a noise mixture. Therefore, the frequency-band aware attention is proposed i.e., high frequency-band attention (HFA), and low frequency-band attention (LFA). The U-shaped Transformer is also first time introduced in the proposed method to further improve the speech estimation accuracy. The extensive evaluations over four public datasets, confirm the efficacy of the proposed method.


翻译:最近,在深层的学习中,变换器显示,有可能通过自我自省来利用语音的长期依赖性。因此,在语音增强中引入了该方法,以提高噪音混合物的语音估计准确性。然而,为了解决自省变换器中的计算成本问题,以自我注意的方式,轴心是一种选择,即将2D关注分为两个1D关注点。在拟议的方法中,我们计算时间和频率轴的注意分布图,以生成时间和频率次注意地图,从而产生时间和频率的分注意。此外,与轴心不同的是,拟议方法为时间和频率轴提供了两种平行的多头关注。此外,文献证明,低频带通常包含比高频带更可取的信息,在噪音混合物中。因此,拟议采用的频率波段意识关注度关注度建议,即高频带关注度(HFA)和低频带次注意生成时间和频率次注意地图。此外,拟议的方法与轴心不同,为时间轴,为时间轴提供了两种平行的多头关注度关注点。此外,拟议采用的变换式数据法还改进了对公众数据的准确度评估方法。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
【ECCV2018】24篇论文代码实现
专知
17+阅读 · 2018年9月10日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
相关论文
Learning in the Frequency Domain
Arxiv
11+阅读 · 2020年3月12日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
Top
微信扫码咨询专知VIP会员