近期语音类前沿论文

2019 年 3 月 17 日 深度学习每日摘要
  1. A Deep Generative Model of Speech Complex Spectrograms

    作者: Nugraha Aditya Arie,Sekiguchi Kouhei,Yoshii Kazuyoshi
    链接: https://arxiv.org/abs/1903.03269
    单位: RIKEN Center for Advanced Intelligence Project (AIP), Japan

    频谱分析是语音增强、语音合成的关键环节,这篇文章提出一个基于VAE框架的频谱增强算法,对STFT得到的幅度和相位作为生成模型的数据,文中假设幅度服从高斯分布,而相位以及相位的差分(群延迟、瞬时频率)服从冯·米塞斯分布,整个VAE由三个卷积网络构成,它们分别是编码器、幅度解码器、相位解码器,在训练的时候,先训练编码器和幅度解码器的参数,然后再连同相位解码器一起接着继续训练。实验结果表明,好的群延迟、瞬时频率足以提供稳健的音频质量。

  2. Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices

    作者: Sekiguchi Kouhei,Nugraha Aditya Arie,Bando Yoshiaki,Yoshii Kazuyoshi
    链接: https://arxiv.org/abs/1903.03237
    单位: RIKEN Center for Advanced Intelligence Project (AIP), Japan

    本文介绍了一种基于满秩空间建模的多通道源分离的加速方法,此类问题常用的做法是结合空间协方差矩阵和声源的功率谱密度,尤其是多通道非负矩阵分解算法(MNMF)。这里简单介绍一下MNMF,本质上是一个矩阵分解算法,即找到权重矩阵W和特征矩阵H,使得V=WH,值得注意的是,这里W和H需要满足非负性,巧妙的是,这里可以将梯度下降算法转换成乘法操作,于是只要V、W和H的初始值非负,那么迭代过程中都保持非负性。将MNMF运用到语音的原始信号或者频谱图上,即可得到多个分离的时域信号或频谱图。然而,由于无约束的满秩空间协方差矩阵很难估计,MNMF迭代速度较慢并且效果不是很好,本文提出将协方差矩阵的每个频率窗口限制为联合对角化但仍然满秩的方法。该方法不仅速度快,而且效果较好。

  3. Phase-aware Speech Enhancement with Deep Complex U-Net

    作者: Choi Hyeong-Seok,Kim Jang-Hyun,Huh Jaesung,Kim Adrian,Ha Jung-Woo,Lee Kyogu
    链接: https://arxiv.org/abs/1903.03107
    单位: Seoul National University

    本文研究的问题跟前面论文1类似,也是通过估计相位信息来解决语音增强问题。作者从三个方面做了研究,第一是提出基于复数运算的U-Net,这样就可以直接处理复数类型的短时傅里叶变换过后的频谱图;提出了极坐标系下的复数值得mask方法;第三是提出了一个新颖的损失函数:带权重的失真比(wSDR)。作者在Voice Bank数据集合DEMAND数据集上的实验表明该方法在所有评估指标中都达到了最先进水平。

  4. Deep Griffin-Lim Iteration

    作者: Masuyama Yoshiki,Yatabe Kohei,Koizumi Yuma,Oikawa Yasuhiro,Harada Noboru
    链接: https://arxiv.org/abs/1903.03971
    单位: Department of Intermedia Art and Science, Waseda University

    本文依然是研究相位估计的问题,作者对传统的Griffin-Lim Algorithm(GLA)进行了一点改进,加上了基于信号处理的方法以及深度神经网络,这样做可以使得在不同场合下选取不同复杂度的不同性能的模块,而原始的GLA算法要么效果不太好,要么计算太复杂。文中图4表明,无论是GLA-inspired层、残差层还是DNN层,都可以在不同程度上对信号进行重建,效果差异决定了使用场合要有所区分。

  5. Singing voice conversion with non-parallel data

    作者: Chen Xin,Chu Wei,Guo Jinxi,Xu Ning
    链接: https://arxiv.org/abs/1903.04124
    单位: Snap Research

    本文是第一篇使用非平行语料来做歌声转换的研究,作者通过一个健壮的语音识别引擎来识别源歌声的音素,然后将此音素输入到一个训练好的DBLSTM网络中,该网络的作用是将歌唱人无关的音素内容映射到目标歌唱人的声学特征,再结合源歌唱人的F0和aperiodic一起输入到合成器即可合成目标歌唱人的歌声。实验数据表明MOS的值为3.3~3.4左右,目前效果不是很好。不过该方法一个明显的改进就是使用神经网络合成器wavenet来代替传统的参数合成器,这样韵律会更自然一点。

  6. Progressive Generative Adversarial Binary Networks for Music Generation

    作者: Oza Manan,Vaghela Himanshu,Srivastava Kriti
    链接: https://arxiv.org/abs/1903.04722
    单位: D. J. Sanghvi College of Engineering, Department of Computer Engineering

    本文基于之前英伟达提出的Progressive GAN来做钢琴声合成,作者的做法是一开始只预测比较短的时间和较窄的音高范围,随着训练的进行,逐渐增加新的参数来放大,实验效果较好,该Progressive GAN方法可以继续延伸到语音合成等领域。

  7. Bridging the Gap Between Monaural Speech Enhancement and Recognition with Distortion-Independent Acoustic Modeling

    作者: Wang Peidong,Tan Ke,Wang DeLiang
    链接: https://arxiv.org/abs/1903.04567
    单位: Department of Computer Science and Engineering, The Ohio State University

    语音增强对于多人混合语音中单人的语音识别没有起到应有的改善,原因是其对目标声音造成了一定的失真。在这篇文章中,作者提出了五种类型的声学模型,其中表现最好的模型具备对噪声有一定的泛化能力,并且这种失真无关的声学模型能够适应各种不同的语音增强前端。

  8. Audiovisual Speaker Tracking using Nonlinear Dynamical Systems with Dynamic Stream Weights

    作者: Schymura Christopher,Kolossa Dorothea
    链接: https://arxiv.org/abs/1903.06031
    单位: Ruhr University Bochum

    本文主要提出一个动态框架进而可以如何更好地融合视觉信息和听觉信息,该框架可以基于传感器的状态来动态地调节权重参数。


登录查看更多
14

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
近期必读的5篇AI顶会CVPR 2020 GNN (图神经网络) 相关论文
专知会员服务
78+阅读 · 2020年3月3日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
DeepMind论文:深度压缩感知,新框架提升GAN性能
极市平台
4+阅读 · 2019年5月23日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
数据挖掘的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
7+阅读 · 2019年3月11日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
Arxiv
6+阅读 · 2019年7月11日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
5+阅读 · 2019年4月21日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
VIP会员
相关资讯
近期强化学习领域论文导读(附源码)
人工智能前沿讲习班
7+阅读 · 2019年6月15日
DeepMind论文:深度压缩感知,新框架提升GAN性能
极市平台
4+阅读 · 2019年5月23日
近期声学领域前沿论文(No. 4)
深度学习每日摘要
7+阅读 · 2019年5月1日
近期声学领域前沿论文(No. 3)
深度学习每日摘要
24+阅读 · 2019年3月31日
数据挖掘的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
7+阅读 · 2019年3月11日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
相关论文
Arxiv
6+阅读 · 2019年7月11日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
5+阅读 · 2019年4月21日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
8+阅读 · 2018年11月27日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
Top
微信扫码咨询专知VIP会员