近期语音类前沿论文

会员服务 ·

近期语音类前沿论文

2019 年 3 月 17 日 深度学习每日摘要

A Deep Generative Model of Speech Complex Spectrograms

作者: Nugraha Aditya Arie,Sekiguchi Kouhei,Yoshii Kazuyoshi
链接: https://arxiv.org/abs/1903.03269
单位: RIKEN Center for Advanced Intelligence Project (AIP), Japan

频谱分析是语音增强、语音合成的关键环节，这篇文章提出一个基于VAE框架的频谱增强算法，对STFT得到的幅度和相位作为生成模型的数据，文中假设幅度服从高斯分布，而相位以及相位的差分（群延迟、瞬时频率）服从冯·米塞斯分布，整个VAE由三个卷积网络构成，它们分别是编码器、幅度解码器、相位解码器，在训练的时候，先训练编码器和幅度解码器的参数，然后再连同相位解码器一起接着继续训练。实验结果表明，好的群延迟、瞬时频率足以提供稳健的音频质量。
Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices

作者: Sekiguchi Kouhei,Nugraha Aditya Arie,Bando Yoshiaki,Yoshii Kazuyoshi
链接: https://arxiv.org/abs/1903.03237
单位: RIKEN Center for Advanced Intelligence Project (AIP), Japan

本文介绍了一种基于满秩空间建模的多通道源分离的加速方法，此类问题常用的做法是结合空间协方差矩阵和声源的功率谱密度，尤其是多通道非负矩阵分解算法（MNMF）。这里简单介绍一下MNMF，本质上是一个矩阵分解算法，即找到权重矩阵W和特征矩阵H，使得V=WH，值得注意的是，这里W和H需要满足非负性，巧妙的是，这里可以将梯度下降算法转换成乘法操作，于是只要V、W和H的初始值非负，那么迭代过程中都保持非负性。将MNMF运用到语音的原始信号或者频谱图上，即可得到多个分离的时域信号或频谱图。然而，由于无约束的满秩空间协方差矩阵很难估计，MNMF迭代速度较慢并且效果不是很好，本文提出将协方差矩阵的每个频率窗口限制为联合对角化但仍然满秩的方法。该方法不仅速度快，而且效果较好。
Phase-aware Speech Enhancement with Deep Complex U-Net

作者: Choi Hyeong-Seok,Kim Jang-Hyun,Huh Jaesung,Kim Adrian,Ha Jung-Woo,Lee Kyogu
链接: https://arxiv.org/abs/1903.03107
单位: Seoul National University

本文研究的问题跟前面论文1类似，也是通过估计相位信息来解决语音增强问题。作者从三个方面做了研究，第一是提出基于复数运算的U-Net，这样就可以直接处理复数类型的短时傅里叶变换过后的频谱图；提出了极坐标系下的复数值得mask方法；第三是提出了一个新颖的损失函数：带权重的失真比（wSDR）。作者在Voice Bank数据集合DEMAND数据集上的实验表明该方法在所有评估指标中都达到了最先进水平。
Deep Griffin-Lim Iteration

作者: Masuyama Yoshiki,Yatabe Kohei,Koizumi Yuma,Oikawa Yasuhiro,Harada Noboru
链接: https://arxiv.org/abs/1903.03971
单位: Department of Intermedia Art and Science, Waseda University

本文依然是研究相位估计的问题，作者对传统的Griffin-Lim Algorithm（GLA）进行了一点改进，加上了基于信号处理的方法以及深度神经网络，这样做可以使得在不同场合下选取不同复杂度的不同性能的模块，而原始的GLA算法要么效果不太好，要么计算太复杂。文中图4表明，无论是GLA-inspired层、残差层还是DNN层，都可以在不同程度上对信号进行重建，效果差异决定了使用场合要有所区分。
Singing voice conversion with non-parallel data

作者: Chen Xin,Chu Wei,Guo Jinxi,Xu Ning
链接: https://arxiv.org/abs/1903.04124
单位: Snap Research

本文是第一篇使用非平行语料来做歌声转换的研究，作者通过一个健壮的语音识别引擎来识别源歌声的音素，然后将此音素输入到一个训练好的DBLSTM网络中，该网络的作用是将歌唱人无关的音素内容映射到目标歌唱人的声学特征，再结合源歌唱人的F0和aperiodic一起输入到合成器即可合成目标歌唱人的歌声。实验数据表明MOS的值为3.3~3.4左右，目前效果不是很好。不过该方法一个明显的改进就是使用神经网络合成器wavenet来代替传统的参数合成器，这样韵律会更自然一点。
Progressive Generative Adversarial Binary Networks for Music Generation

作者: Oza Manan,Vaghela Himanshu,Srivastava Kriti
链接: https://arxiv.org/abs/1903.04722
单位: D. J. Sanghvi College of Engineering, Department of Computer Engineering

本文基于之前英伟达提出的Progressive GAN来做钢琴声合成，作者的做法是一开始只预测比较短的时间和较窄的音高范围，随着训练的进行，逐渐增加新的参数来放大，实验效果较好，该Progressive GAN方法可以继续延伸到语音合成等领域。
Bridging the Gap Between Monaural Speech Enhancement and Recognition with Distortion-Independent Acoustic Modeling

作者: Wang Peidong,Tan Ke,Wang DeLiang
链接: https://arxiv.org/abs/1903.04567
单位: Department of Computer Science and Engineering, The Ohio State University

语音增强对于多人混合语音中单人的语音识别没有起到应有的改善，原因是其对目标声音造成了一定的失真。在这篇文章中，作者提出了五种类型的声学模型，其中表现最好的模型具备对噪声有一定的泛化能力，并且这种失真无关的声学模型能够适应各种不同的语音增强前端。
Audiovisual Speaker Tracking using Nonlinear Dynamical Systems with Dynamic Stream Weights

作者: Schymura Christopher,Kolossa Dorothea
链接: https://arxiv.org/abs/1903.06031
单位: Ruhr University Bochum

本文主要提出一个动态框架进而可以如何更好地融合视觉信息和听觉信息，该框架可以基于传感器的状态来动态地调节权重参数。