Complex spectrum and magnitude are considered as two major features of speech enhancement and dereverberation. Traditional approaches always treat these two features separately, ignoring their underlying relationship. In this paper, we proposem Uformer, a Unet based dilated complex & real dual-path conformer network in both complex and magnitude domain for simultaneous speech enhancement and dereverberation. We exploit time attention (TA) and dilated convolution (DC) to leverage local and global contextual information and frequency attention (FA) to model dimensional information. These three sub-modules contained in the proposed dilated complex & real dual-path conformer module effectively improve the speech enhancement and dereverberation performance. Furthermore, hybrid encoder and decoder are adopted to simultaneously model the complex spectrum and magnitude and promote the information interaction between two domains. Encoder decoder attention is also applied to enhance the interaction between encoder and decoder. Our experimental results outperform all SOTA time and complex domain models objectively and subjectively. Specifically, Uformer reaches 3.6032 DNSMOS on the blind test set of Interspeech 2021 DNS Challenge, which outperforms all top-performed models. We also carry out ablation experiments to tease apart all proposed sub-modules that are most important.


翻译:复杂的频谱和规模被视为语音增强和偏差的两个主要特征。 传统方法总是将这两个特征分开处理, 忽略其内在关系。 在本文中, 我们提议在复杂和规模域内, 以基于铀的放大复杂和真实的双路径兼容网络, 在复杂和规模域内, 用于同时增强语音和皮肤畸变。 我们利用时间关注( TA) 和放大变异( DC) 来利用本地和全球背景信息和频率关注模型的维度信息。 这三个子模块包含在拟议的扩展复杂和真实双向相容模块中, 有效地改进了语音增强和皮肤变异性功能。 此外, 混合编码器和解码器被同时用于模拟复杂的频谱和规模, 并促进两个领域之间的信息互动 。 编码器解码器还被用于加强编码器和变异( DDC) 之间的相互作用。 我们的实验结果以客观和主观的方式超越了所有SOTA时间和复杂域模型。 具体地说, Ufred 将3. 6032 DNSMOS 放在了In Indepeach made develop comlaction All 2021 最重要的实验模型中, Extravelop for wes flavelop exformaxeformlations

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Real-Time High-Resolution Background Matting
Arxiv
4+阅读 · 2020年12月14日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
7+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Relation Networks for Object Detection 论文笔记
统计学习与视觉计算组
16+阅读 · 2018年4月18日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员