嵌入和波束成型:促进多渠道语音增强的全新、全新、全新、全新、全新、全自然、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、促进多通道语音增强 (Embedding and Beamforming: All-neural Causal Beamformer for Multichannel Speech Enhancement) - 专知论文

会员服务 ·

0

语音增强 · 协方差矩阵 · Networking · INFORMS · 估计/估计量 ·

2021 年 9 月 2 日

Embedding and Beamforming: All-neural Causal Beamformer for Multichannel Speech Enhancement

翻译：嵌入和波束成型:促进多渠道语音增强的全新、全新、全新、全新、全新、全自然、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、全新、促进多通道语音增强

Andong Li,Wenzhe Liu,Chengshi Zheng,Xiaodong Li

from arxiv, Submitted to ICASSP 2022, first version

The spatial covariance matrix has been considered to be significant for beamformers. Standing upon the intersection of traditional beamformers and deep neural networks, we propose a causal neural beamformer paradigm called Embedding and Beamforming, and two core modules are designed accordingly, namely EM and BM. For EM, instead of estimating spatial covariance matrix explicitly, the 3-D embedding tensor is learned with the network, where both spectral and spatial discriminative information can be represented. For BM, a network is directly leveraged to derive the beamforming weights so as to implement filter-and-sum operation. To further improve the speech quality, a post-processing module is introduced to further suppress the residual noise. Based on the DNS-Challenge dataset, we conduct the experiments for multichannel speech enhancement and the results show that the proposed system outperforms previous advanced baselines by a large margin in multiple evaluation metrics.

翻译：空间共变矩阵被认为对光源体十分重要。在传统光源体和深神经网络交汇处,我们提议采用一个称为嵌入和波形的因果神经光谱模型,并据此设计了两个核心模块,即EM和BM。对于EM来说,不是明确估计空间共变矩阵,而是与网络学习三维嵌入色子,在网络中可以代表光谱和空间歧视信息。对于BM来说,直接利用网络来提取波形重量,以便实施过滤和组合操作。为了进一步提高语音质量,采用了后处理模块以进一步抑制残余噪音。基于DNS-Challenge数据集,我们进行了多频道语音增强实验,结果显示,拟议的系统在多个评价指标中大大超越了先前的高级基线。

0

相关内容

语音增强

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

【UAI2021教程】贝叶斯最优学习，65页ppt

【UAI2021教程】贝叶斯最优学习，65页ppt

专知会员服务

65+阅读 · 2021年8月7日

最新《自监督表示学习》报告，70页ppt

最新《自监督表示学习》报告，70页ppt

专知会员服务

86+阅读 · 2020年12月22日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

126+阅读 · 2020年8月2日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

专知会员服务

10+阅读 · 2019年10月30日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【资源】语音增强资源集锦

【资源】语音增强资源集锦

专知

8+阅读 · 2020年7月4日

IEEE | DSC 2019诚邀稿件 (EI检索)

IEEE | DSC 2019诚邀稿件 (EI检索)

Call4Papers

10+阅读 · 2019年2月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

CCF C类 | IJCNN 2019 Special Section : 信息论与深度学习

CCF C类 | IJCNN 2019 Special Section : 信息论与深度学习

Call4Papers

5+阅读 · 2018年12月7日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新五篇图像分割相关论文—R2U-Net、ScatterNet混合深度学习、分离卷积编解码、控制、Embedding

【论文推荐】最新五篇图像分割相关论文—R2U-Net、ScatterNet混合深度学习、分离卷积编解码、控制、Embedding

专知

7+阅读 · 2018年2月26日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Multichannel Speech Enhancement without Beamforming

Multichannel Speech Enhancement without Beamforming

Arxiv

0+阅读 · 2021年10月25日

TADRN: Triple-Attentive Dual-Recurrent Network for Ad-hoc Array Multichannel Speech Enhancement

TADRN: Triple-Attentive Dual-Recurrent Network for Ad-hoc Array Multichannel Speech Enhancement

Arxiv

0+阅读 · 2021年10月22日

Dual-branch Attention-In-Attention Transformer for single-channel speech enhancement

Arxiv

0+阅读 · 2021年10月21日

TPARN: Triple-path Attentive Recurrent Network for Time-domain Multichannel Speech Enhancement

Arxiv

0+阅读 · 2021年10月20日

One model to enhance them all: array geometry agnostic multi-channel personalized speech enhancement

Arxiv

0+阅读 · 2021年10月20日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization

A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization

Arxiv

7+阅读 · 2019年3月6日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

Neural source-filter-based waveform model for statistical parametric speech synthesis

Arxiv

4+阅读 · 2018年11月26日

Unified Hypersphere Embedding for Speaker Recognition

Arxiv

5+阅读 · 2018年7月22日

VIP会员

文章信息

相关主题

协方差矩阵

估计/估计量

相关VIP内容

【UAI2021教程】贝叶斯最优学习，65页ppt

【UAI2021教程】贝叶斯最优学习，65页ppt

专知会员服务

65+阅读 · 2021年8月7日

最新《自监督表示学习》报告，70页ppt

最新《自监督表示学习》报告，70页ppt

专知会员服务

86+阅读 · 2020年12月22日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

126+阅读 · 2020年8月2日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

252+阅读 · 2020年4月19日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

专知会员服务

10+阅读 · 2019年10月30日

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

【课程】普林斯顿大学19年春季学期《机器学习优化》课程讲义

专知会员服务

85+阅读 · 2019年10月29日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【NeurIPS2025】语义提示扩散变换器的像素级精确深度估计

俄乌冲突的地缘政治与军事教训（万字长文）

【博士论文】弥合多模态基础模型与世界模型之间的鸿沟

量子增强计算机视觉：超越经典算法

相关资讯

【资源】语音增强资源集锦

【资源】语音增强资源集锦

专知

8+阅读 · 2020年7月4日

IEEE | DSC 2019诚邀稿件 (EI检索)

IEEE | DSC 2019诚邀稿件 (EI检索)

Call4Papers

10+阅读 · 2019年2月25日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

CCF C类 | IJCNN 2019 Special Section : 信息论与深度学习

CCF C类 | IJCNN 2019 Special Section : 信息论与深度学习

Call4Papers

5+阅读 · 2018年12月7日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新五篇图像分割相关论文—R2U-Net、ScatterNet混合深度学习、分离卷积编解码、控制、Embedding

【论文推荐】最新五篇图像分割相关论文—R2U-Net、ScatterNet混合深度学习、分离卷积编解码、控制、Embedding

专知

7+阅读 · 2018年2月26日

条件GAN重大改进！cGANs with Projection Discriminator

条件GAN重大改进！cGANs with Projection Discriminator

CreateAMind

8+阅读 · 2018年2月7日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Multichannel Speech Enhancement without Beamforming

Multichannel Speech Enhancement without Beamforming

Arxiv

0+阅读 · 2021年10月25日

TADRN: Triple-Attentive Dual-Recurrent Network for Ad-hoc Array Multichannel Speech Enhancement

TADRN: Triple-Attentive Dual-Recurrent Network for Ad-hoc Array Multichannel Speech Enhancement

Arxiv

0+阅读 · 2021年10月22日

Dual-branch Attention-In-Attention Transformer for single-channel speech enhancement

Arxiv

0+阅读 · 2021年10月21日

TPARN: Triple-path Attentive Recurrent Network for Time-domain Multichannel Speech Enhancement

Arxiv

0+阅读 · 2021年10月20日

One model to enhance them all: array geometry agnostic multi-channel personalized speech enhancement

Arxiv

0+阅读 · 2021年10月20日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization

A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization

Arxiv

7+阅读 · 2019年3月6日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

Neural source-filter-based waveform model for statistical parametric speech synthesis

Arxiv

4+阅读 · 2018年11月26日

Unified Hypersphere Embedding for Speaker Recognition

Arxiv

5+阅读 · 2018年7月22日

微信扫码咨询专知VIP会员