通用MelGAN:多域中高纤维波形生成的坚固神经元导体 (Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains)

We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech in multiple domains. To preserve sound quality when the MelGAN-based structure is trained with a dataset of hundreds of speakers, we added multi-resolution spectrogram discriminators to sharpen the spectral resolution of the generated waveforms. This enables the model to generate realistic waveforms of multi-speakers, by alleviating the over-smoothing problem in the high frequency band of the large footprint model. Our structure generates signals close to ground-truth data without reducing the inference speed, by discriminating the waveform and spectrogram during training. The model achieved the best mean opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an input. Especially, it showed superior performance in unseen domains with regard of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech scenario using mel-spectrogram generated by a transformer model, it synthesized high-fidelity speech of 4.22 MOS. These results, achieved without external domain information, highlight the potential of the proposed model as a universal vocoder.

翻译：我们建议通用的MelGAN, 是一个在多个领域合成高友谊言词的电动编码器。在对以MelGAN为基础的结构进行数百个发言者数据集的培训时, 为了保持健全的质量, 我们添加了多分辨率光谱分析器, 以强化生成波形的光谱分辨率。使模型能够通过减轻大型足迹模型高频波段的过度移动问题, 产生现实的多声波变形。我们的结构在不降低推断速度的情况下生成接近地面真实数据的信号。通过在培训中区分波形和光谱, 模型在多数情况下都取得了最佳的中值评分( MOS ), 使用地光谱光谱- 光谱作为投入。特别是, 模型显示在看不见的域中, 语言、语言、语言、和音频的超强功能。此外, 在使用变异模型生成的多频文本到语音假设中, 它综合了高纤维模型的信号, 并且通过在培训中区分波形和光谱显示速度。 MOS 22, 这些结果在没有外部域域中实现了。这些结果, 显示, 这些结果显示, 显示全球域。

相关内容

MoDELS

关注 43

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/