Influenced by the field of Computer Vision, Generative Adversarial Networks (GANs) are often adopted for the audio domain using fixed-size two-dimensional spectrogram representations as the "image data". However, in the (musical) audio domain, it is often desired to generate output of variable duration. This paper presents VQCPC-GAN, an adversarial framework for synthesizing variable-length audio by exploiting Vector-Quantized Contrastive Predictive Coding (VQCPC). A sequence of VQCPC tokens extracted from real audio data serves as conditional input to a GAN architecture, providing step-wise time-dependent features of the generated content. The input noise z (characteristic in adversarial architectures) remains fixed over time, ensuring temporal consistency of global features. We evaluate the proposed model by comparing a diverse set of metrics against various strong baselines. Results show that, even though the baselines score best, VQCPC-GAN achieves comparable performance even when generating variable-length audio. Numerous sound examples are provided in the accompanying website, and we release the code for reproducibility.


翻译:在计算机视野领域的影响下,往往采用固定尺寸的二维光谱图示作为“图像数据”,对音域采用声音域采用固定尺寸的二维光谱图示,作为“图像数据”。然而,在(音乐)音域中,往往希望产生可变持续时间的输出。本文展示了VQCPC-GAN,这是利用矢量定量对立预测编码(VQCPC-GAN)合成多长音频的对立框架。从真实音频数据中提取的VQCPC标志序列,作为GAN结构的有条件输入,提供了生成内容的分步取时特征。输入噪音z(对抗性结构中的特点)在时间上保持不变,确保全球特征的时间一致性。我们通过对照各种强的基线比较一套不同的衡量标准来评估拟议的模型。结果显示,即使基线评分最佳,VQCPC-GAN即使在生成变长音频时,也取得了可比的性能。在相应的网站上提供了许多有说服力的例子,我们发布了可追溯性的代码。

0
下载
关闭预览

相关内容

最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
已删除
将门创投
6+阅读 · 2019年7月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月27日
Arxiv
5+阅读 · 2020年10月22日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月4日
VIP会员
相关资讯
已删除
将门创投
6+阅读 · 2019年7月11日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年9月27日
Arxiv
5+阅读 · 2020年10月22日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月4日
Top
微信扫码咨询专知VIP会员