Recent achievements in end-to-end deep learning have encouraged the exploration of tasks dealing with highly structured data with unified deep network models. Having such models for compressing audio signals has been challenging since it requires discrete representations that are not easy to train with end-to-end backpropagation. In this paper, we present an end-to-end deep learning approach that combines recurrent neural networks (RNNs) within the training strategy of variational autoencoders (VAEs) with a binary representation of the latent space. We apply a reparametrization trick for the Bernoulli distribution for the discrete representations, which allows smooth backpropagation. In addition, our approach allows the separation of the encoder and decoder, which is necessary for compression tasks. To our best knowledge, this is the first end-to-end learning for a single audio compression model with RNNs, and our model achieves a Signal to Distortion Ratio (SDR) of 20.54.


翻译:近期在端到端深层学习方面的成就鼓励了探索使用统一的深网络模型处理高度结构化数据的任务。 采用这种压缩音频信号的模式一直具有挑战性,因为它要求使用不易用端到端的反向插图进行训练的离散演示。 在本文中,我们提出了一个端到端深层学习方法,在变异自动计算器(VAE)的培训战略中,将经常性神经网络与潜在空间的二进制表示法结合起来。 我们为离散显示器的 Bernoulli 配送应用了一种重新对称法,允许平滑的反向转换。 此外,我们的方法允许分离编码器和解码器,这是压缩任务所必需的。 据我们所知,这是与RNN(S)一起的单一音频压缩模型的第一个端到端学习,我们的模式实现了20.54的信号调控率(SDR)。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
44+阅读 · 2020年10月31日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
91+阅读 · 2019年10月16日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年9月14日
Compression of Deep Learning Models for Text: A Survey
Arxiv
53+阅读 · 2018年12月11日
Arxiv
5+阅读 · 2018年5月31日
VIP会员
相关资讯
ICLR 2020会议的16篇最佳深度学习论文
AINLP
5+阅读 · 2020年5月12日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
互信息论文笔记
CreateAMind
23+阅读 · 2018年8月23日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Deep Learning & Neural Network 免费学习资源【译】
乐享数据DataScientists
5+阅读 · 2017年8月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员