Conditional waveform synthesis models learn a distribution of audio waveforms given conditioning such as text, mel-spectrograms, or MIDI. These systems employ deep generative models that model the waveform via either sequential (autoregressive) or parallel (non-autoregressive) sampling. Generative adversarial networks (GANs) have become a common choice for non-autoregressive waveform synthesis. However, state-of-the-art GAN-based models produce artifacts when performing mel-spectrogram inversion. In this paper, we demonstrate that these artifacts correspond with an inability for the generator to learn accurate pitch and periodicity. We show that simple pitch and periodicity conditioning is insufficient for reducing this error relative to using autoregression. We discuss the inductive bias that autoregression provides for learning the relationship between instantaneous frequency and phase, and show that this inductive bias holds even when autoregressively sampling large chunks of the waveform during each forward pass. Relative to prior state-of- the-art GAN-based models, our proposed model, Chunked Autoregressive GAN (CARGAN) reduces pitch error by 40-60%, reduces training time by 58%, maintains a fast generation speed suitable for real-time or interactive applications, and maintains or improves subjective quality.


翻译:条件波形合成模型学会了文本、 光谱或 MIDI 等给定的音波形状的分布。 这些系统采用深基因模型, 通过顺序( 反向) 或平行( 非反向) 取样来模拟波形。 生成的对立网络( GANs) 已经成为非反向波形合成的一种常见选择。 然而, 最先进的 GAN 模型在进行中光谱转换时会生成一些艺术品。 在本文中, 我们证明这些文物与发电机无法学习准确的音频和周期性相对应。 我们显示, 简单的音频和周期性调节不足以减少与使用自向反的差 。 我们讨论自向偏移为学习瞬时频和波状合成之间的关系而提供的偏差偏差。 我们讨论的是, 这种向偏差甚至在每次前过程对波状大块进行自动递增取样时, 也存在。 相对先前的状态的GAN 模型, 我们提议的模型, 铜- 和周期性周期性 相对于前方的GAN 质量 模型, 我们提议的模型, 将 自动自动递增 或自动 速度 降低 的 GARC 的 的 的 和 快速 降低 的 速度 和 方向 的 降低 方向, 和 将 的 将 降低 方向 的 方向 的 降低 的 的 的 和 方向 的 方向 的 的 的 的 的 降低 降低 方向 方向 方向 降低 降低 和 方向 方向 方向 方向 降低 方向 方向 方向 降低 的 方向 降低 的 的 和 方向 方向 降低 的 的 降低 降低 降低 和 方向 方向 方向 的 降低 降低 降低 降低 降低 降低 降低 降低 降低 降低 降低 或 或 方向 方向 方向 方向 降低 方向 方向 方向 方向 方向 或 降低 或 或 方向 方向 降低 降低 方向 降低 或 降低 的 的 方向 降低 降低 降低 方向 降低 降低 降低 降低 降低 降低 降低 方向 方向 方向 方向 或 或

0
下载
关闭预览

相关内容

专知会员服务
15+阅读 · 2021年5月13日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
59+阅读 · 2020年12月11日
专知会员服务
109+阅读 · 2020年3月12日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
15+阅读 · 2018年6月26日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关资讯
2018 年最棒的三篇 GAN 论文
AI科技评论
4+阅读 · 2019年1月14日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
997篇-历史最全生成对抗网络(GAN)论文串烧
深度学习与NLP
15+阅读 · 2018年6月26日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员