This research project investigates the application of deep learning to timbre transfer, where the timbre of a source audio can be converted to the timbre of a target audio with minimal loss in quality. The adopted approach combines Variational Autoencoders with Generative Adversarial Networks to construct meaningful representations of the source audio and produce realistic generations of the target audio and is applied to the Flickr 8k Audio dataset for transferring the vocal timbre between speakers and the URMP dataset for transferring the musical timbre between instruments. Furthermore, variations of the adopted approach are trained, and generalised performance is compared using the metrics SSIM (Structural Similarity Index) and FAD (Frech\'et Audio Distance). It was found that a many-to-many approach supersedes a one-to-one approach in terms of reconstructive capabilities, and that the adoption of a basic over a bottleneck residual block design is more suitable for enriching content information about a latent space. It was also found that the decision on whether cyclic loss takes on a variational autoencoder or vanilla autoencoder approach does not have a significant impact on reconstructive and adversarial translation aspects of the model.


翻译:这个研究项目调查了深层次学习对音质传输的应用, 将源音频的触角转换成目标音频的触角, 质量损失最小。 采用的方法将变式自动电解器与基因反对流网络结合起来, 以构建源音频有意义的表达方式, 产生现实的一代目标音频, 并应用Flickr 8k 音频数据集, 以在音频和URMP数据集之间传输音频调音频阵列, 以转移仪器之间的音频阵列。 此外, 对采用的方法的变异进行了培训, 并且将一般性能比作使用 SSIM( 结构相似指数) 和 FAD( Frech\'et 音频距离) 。 人们发现, 从重建能力上看, 多种到多种方法取代了一对一的方法, 并且对瓶端残余区设计采用基本方法更适合丰富关于隐性空间的内容信息。 另外, 发现, 有关自行车损失是否在变式自动转换模型或Vanilla 自动coder 方法的转化方式不会产生显著的影响。

0
下载
关闭预览

相关内容

自动编码器是一种人工神经网络,用于以无监督的方式学习有效的数据编码。自动编码器的目的是通过训练网络忽略信号“噪声”来学习一组数据的表示(编码),通常用于降维。与简化方面一起,学习了重构方面,在此,自动编码器尝试从简化编码中生成尽可能接近其原始输入的表示形式,从而得到其名称。基本模型存在几种变体,其目的是迫使学习的输入表示形式具有有用的属性。自动编码器可有效地解决许多应用问题,从面部识别到获取单词的语义。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
201+阅读 · 2019年9月30日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
已删除
将门创投
3+阅读 · 2017年10月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
Arxiv
4+阅读 · 2018年5月21日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月4日
Arxiv
9+阅读 · 2018年1月4日
VIP会员
相关VIP内容
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
163+阅读 · 2020年3月18日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
201+阅读 · 2019年9月30日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
已删除
将门创投
3+阅读 · 2017年10月12日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
相关论文
Top
微信扫码咨询专知VIP会员