Audio super-resolution is the task of constructing a high-resolution (HR) audio from a low-resolution (LR) audio by adding the missing band. Previous methods based on convolutional neural networks and mean squared error training objective have relatively low performance, while adversarial generative models are difficult to train and tune. Recently, normalizing flow has attracted a lot of attention for its high performance, simple training and fast inference. In this paper, we propose WSRGlow, a Glow-based waveform generative model to perform audio super-resolution. Specifically, 1) we integrate WaveNet and Glow to directly maximize the exact likelihood of the target HR audio conditioned on LR information; and 2) to exploit the audio information from low-resolution audio, we propose an LR audio encoder and an STFT encoder, which encode the LR information from the time domain and frequency domain respectively. The experimental results show that the proposed model is easier to train and outperforms the previous works in terms of both objective and perceptual quality. WSRGlow is also the first model to produce 48kHz waveforms from 12kHz LR audio.


翻译:音频超分辨率是通过添加缺失频段从低分辨率(LR)音频中构建高分辨率(HR)音频的任务。基于进化神经网络和平均平方错误培训目标的以往方法的性能相对较低,而对抗性突变模型则难以培训和调控。最近,正常流因其高性能、简单培训和快速推导而吸引了大量关注。在本文中,我们提议了基于 Glow 的波形变色模型WSRGlow,以进行音频超分辨率。具体地说,1)我们整合WaveNet和Glow,以直接最大限度地扩大以LR信息作为目标的HR音频条件的确切可能性;以及2)利用低分辨率音频信息,我们提议了一个LR音频编码器和一个STFT编码器,分别从时域和频域域和频率域对LR信息进行编码。实验结果表明,拟议的模型在客观和感知质量两方面都更容易培训和超越以前的工程。WWWLGlow也是从12kHz音频生成48kHz波形模型的第一个模型。

0
下载
关闭预览

相关内容

在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
6+阅读 · 2020年7月2日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月13日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Arxiv
43+阅读 · 2020年2月27日
VIP会员
相关VIP内容
【ACL2020】端到端语音翻译的课程预训练
专知会员服务
6+阅读 · 2020年7月2日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员