In this paper, we propose a quasi-periodic parallel WaveGAN (QPPWG) waveform generative model, which applies a quasi-periodic (QP) structure to a parallel WaveGAN (PWG) model using pitch-dependent dilated convolution networks (PDCNNs). PWG is a small-footprint GAN-based raw waveform generative model, whose generation time is much faster than real time because of its compact model and non-autoregressive (non-AR) and non-causal mechanisms. Although PWG achieves high-fidelity speech generation, the generic and simple network architecture lacks pitch controllability for an unseen auxiliary fundamental frequency ($F_{0}$) feature such as a scaled $F_{0}$. To improve the pitch controllability and speech modeling capability, we apply a QP structure with PDCNNs to PWG, which introduces pitch information to the network by dynamically changing the network architecture corresponding to the auxiliary $F_{0}$ feature. Both objective and subjective experimental results show that QPPWG outperforms PWG when the auxiliary $F_{0}$ feature is scaled. Moreover, analyses of the intermediate outputs of QPPWG also show better tractability and interpretability of QPPWG, which respectively models spectral and excitation-like signals using the cascaded fixed and adaptive blocks of the QP structure.


翻译:在本文中,我们提出了一个半周期性平行WaveGAN(QPGAN)波形变色模型(QPPWG),该模型将准周期性结构(QP)结构运用于使用基频率(F ⁇ 0}美元)的基离子放大网络模型(PDCNNs)的平行波形变色模型(PDCNNs)。PWG是一个小脚印GAN(PAN)的原始波形变色模型,其生成时间大大快于实时,因为其结构是紧凑的模型和非自动的(非AR)和非正态机制。虽然PWG实现了高纤维化语音生成,但通用和简单网络结构缺乏对隐性辅助基本频率(F ⁇ 0})的基频率(PWG)的定位控制。为了提高音频控制和语音建模能力,我们对PCDNN(PDCN)的生成时间比实时快得多,因为其生成的网络结构是动态改变的,相当于$PQWG的网络结构。当对QPLA(QQ)的可变性结构进行更精确化分析时, 并分别展示了QLALAVPPPF} 和SLSLALALAFQ(SAL) SAL) 和SL SAL SAL 和SLIPPPDL 的模型的模型的模型的特性时,我们展示了Q。

0
下载
关闭预览

相关内容

【CVPR2021】GAN人脸预训练模型
专知会员服务
24+阅读 · 2021年4月10日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
46+阅读 · 2020年9月28日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
已删除
将门创投
4+阅读 · 2018年11月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
已删除
将门创投
4+阅读 · 2018年11月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员