四 前端信号处理技术 1 联合声学特征和空间特征的会议场景混叠语音检测技术 Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings 多人会议场景,存在一个普遍的现象是多人同时说话造成的混叠语音。这种混叠语音的存在对于后续语音增强,语音识别等任务都造成了很大的挑战。本研究我们探索如何有效的检测出多人会议的音频信号中的混叠语音。不同于过往的只利用单通道的音频信号进行混叠语音检测,我们的研究探索了实际录制的8通道语音信号利用信号处理提供的声源空间信息和音频声学信息来联合进行建模进行混叠语音检测。特别的,我们提出了two-stream DFSMN来有效联合建模两种特征,以及提出了一种基于attention的pooling技术来实现句子级的建模。我们在真实录制的会议数据集上进行了实验验证,结果显示联合音频和空间信息的混叠语音检测相比于基线基于音频的检测方法可以获得明显的性能提升。
2 带定向麦克风的线性阵列的最小范数差分波束成形 Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones 差分麦克风阵列技术(DMA,differential microphone array)或者差分波束成形技术(differential beamforming),由于具有较多的物理特性优势,尤其适合语音信号处理,近年来成为信号处理领域研究热点,同时在工业界也被广泛使用。 我们在差分麦克风阵列理论研究持续耕耘,继去年收录环形阵列差分波束论文之后,本次收录论文进一步在线性阵列上面拓展研究,利用指向性麦克风在线性麦克风阵列上进行差分波束设计,我们将提出的方法称之为线性差分指向性麦克风阵列(Linear differential directional microphone array (LDDMA)), 此方法扩展了线性差分阵列(linear differential microphone array,LDMA)的设计理论,通过理论分析证明,指向性麦克风组成的差分阵列可以在WNG(白噪声增益)和DI(指向因子)两个维度都比目前业界常用的全向性麦克风组成的差分阵列取得明显优势。同时也探索了指向性麦克风的陷零点和差分波束陷零点的数学关系。 3 基于神经网络掩码和注意力模型的实时多通道语音增强 Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model 近年来,虽然语音增强方法的性能得到了很大的提升,但是在远场和复杂的会议室环境中,基于麦克风阵列的语音增强方法仍然有一系列开放的问题需要进一步解决。 本文提出了一种实时的多通道语音增强方法,它由所设计的带注意力机制的复数值掩码估计网络和差分波束形成两个部分组成。 具体来说,在训练阶段,复数值掩码估计网络从多通道数据中估计出单通道目标掩码。在测试阶段,为了进一步抑制噪声,我们首先利用差分波束形成技术来抑制来自非目标方向的干扰信号,从而获得相对干净的频谱。然后将估计的掩码作用于差分波束成形所输出的频谱,作为最终的输出结果。 实验结果表明,本文所提出的方法在PESQ和MOS等指标上取得了优于现有技术的性能。 4 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限 Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments 目前主流的DOA估计方法主要使用全向麦克风阵列拾取信号,利用麦克风间的相位信息进行DOA估计。本文针对混响环境下DOA估计误差大的问题,使用指向性麦克风阵列代替全向麦克风阵列,结合使用振幅和相位信息,增加DOA方法的鲁棒性,并利用克拉美罗下界(CRLB)进行理论分析。 本文通过建模混响信号为isotropic noise,建立混响的互功率谱密度矩阵,进而计算出对应的费雪信息矩阵,得到DOA估计的CRLB。通过理论分析,即对比CRLB发现对于线性阵列,基于指向性麦克风的误差下界低于基于全向麦克风的误差下界。同时利用SRP、MVDR和MUSIC三种DOA方法通过实验对比表明,基于指向性麦克风的RMSE低于基于全向麦克风的RMSE。 5 基于盲源分离的回声消除、去混响、声源分离统一框架 Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation 回声消除、去混响、声源分离是语音增强系统中的三个主要问题。传统系统通常采用的是级联架构,三个子任务分别由三个独立的模块完成,三个模块有各自的理论背景、目标函数和优化方法。级联架构的系统虽然具有灵活性,但是各自模块的任务迭代到最优,并不等于全局结果达到最优。本文将回声消除、去混响、声源分离这三个子任务都统一到了盲源分离的信号模型框架下,并使用auxiliary-function based in-dependent component/vector analysis (Aux-ICA/IVA)的方法进行求解。本文中的方法具有统一的信号模型、目标函数、迭代方法,实验证明这种统一框架有望比独立模块的系统具有更好的语音增强性能。 达摩院语音实验室论文下载链接:1.极低尺寸的设备端语音识别系统 Extremely Low Footprint End-to-End ASR System for Smart Device 论文链接:https://arxiv.org/abs/2104.05784 论文来源:阿里巴巴达摩院语音实验室独立完成2. EMOVIE: 中文普通话开源情感语音数据库 EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model 论文链接:https://arxiv.org/pdf/2106.09317.pdf 论文来源:阿里巴巴达摩院语音实验室与浙江大学合作完成 3. 联合文本和音素表征学习的口语理解预训练 Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning 论文链接:https://arxiv.org/pdf/2104.10357.pdf 论文来源:阿里巴巴达摩院语音实验室独立完成 4. 区分式自训练的标点预测 Discriminative Self-training for Punctuation Prediction 论文链接:https://arxiv.org/pdf/2104.10339.pdf 论文来源:阿里巴巴达摩院语音实验室独立完成 5. 联合声学特征和空间特征的会议场景混叠语音检测技术 Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings 论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhang21w_interspeech.pdf 论文来源:阿里巴巴达摩院语音实验室独立完成6. 带定向麦克风的线性阵列的最小范数差分波束成形 Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones 论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/huang21_interspeech.pdf 论文来源:阿里巴巴达摩院语音实验室独立完成7. 基于神经网络掩码和注意力模型的实时多通道语音增强 Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model 论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/xue21_interspeech.pdf 论文来源:阿里巴巴达摩院语音实验室与湖南大学合作完成8. 在混响环境中使用定向麦克风阵列进行 DOA 估计的 Cramer-Rao 下限 Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional Microphones in Reverberant Environments 论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21h_interspeech.pdf 论文来源:阿里巴巴达摩院语音实验室与湖南大学合作完成9. 基于盲源分离的回声消除、去混响、声源分离统一框架 Joint Online Multichannel Acoustic Echo Cancellation, Speech Dereverberation and Source Separation 开源代码地址:https://github.com/nay0648/unified2021 论文来源:阿里巴巴达摩院语音实验室独立完成 低代码召集令! 参与低代码话题相关投稿,谈谈“你对低代码的理解”,“利用低代码工具真的实现降本增效吗”等话题。活动准备了Air Pods Pro,机械键盘,移动硬盘,阿里云定制书包等精美礼品等你来领!点击阅读原文参与活动!