Neural vocoders often struggle with aliasing in latent feature spaces, caused by time-domain nonlinear operations and resampling layers. Aliasing folds high-frequency components into the low-frequency range, making aliased and original frequency components indistinguishable and introducing two practical issues. First, aliasing complicates the waveform generation process, as the subsequent layers must address these aliasing effects, increasing the computational complexity. Second, it limits extrapolation performance, particularly in handling high fundamental frequencies, which degrades the perceptual quality of generated speech waveforms. This paper demonstrates that 1) time-domain nonlinear operations inevitably introduce aliasing but provide a strong inductive bias for harmonic generation, and 2) time-frequency-domain processing can achieve aliasing-free waveform synthesis but lacks the inductive bias for effective harmonic generation. Building on this insight, we propose Wavehax, an aliasing-free neural WAVEform generator that integrates 2D convolution and a HArmonic prior for reliable Complex Spectrogram estimation. Experimental results show that Wavehax achieves speech quality comparable to existing high-fidelity neural vocoders and exhibits exceptional robustness in scenarios requiring high fundamental frequency extrapolation, where aliasing effects become typically severe. Moreover, Wavehax requires less than 5% of the multiply-accumulate operations and model parameters compared to HiFi-GAN V1, while achieving over four times faster CPU inference speed.


翻译:神经声码器常因时域非线性运算与重采样层在潜在特征空间中产生混叠现象。混叠将高频分量折叠至低频范围,使混叠频率分量与原始频率分量难以区分,并引发两个实际问题:首先,混叠使波形生成过程复杂化,后续网络层需处理这些混叠效应,增加了计算复杂度;其次,混叠限制了外推性能,尤其在处理高基频时,会降低生成语音波形的感知质量。本文论证:1)时域非线性运算虽必然引入混叠,但为谐波生成提供了强归纳偏置;2)时频域处理可实现无混叠波形合成,但缺乏有效谐波生成的归纳偏置。基于此洞见,我们提出Wavehax——一种集成二维卷积与谐波先验的无混叠神经波形生成器,用于实现可靠的复杂频谱估计。实验结果表明,Wavehax在语音质量上媲美现有高保真神经声码器,并在高基频外推场景(混叠效应通常显著)中表现出卓越的鲁棒性。此外,与HiFi-GAN V1相比,Wavehax仅需不足5%的乘累加运算量与模型参数量,同时实现超过四倍的CPU推理加速。

0
下载
关闭预览

相关内容

谐波是指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基波频率整数倍的各次分量,通常称为高次谐波,而基波是指其频率与工频(50Hz)相同的分量。高次谐波的干扰是当前电力系统中影响电能质量的一大“公害”,亟待采取对策。
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
29+阅读 · 2020年4月6日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员