Zero-shot voice conversion (VC) aims to transfer timbre from a source speaker to any unseen target speaker while preserving linguistic content. Growing application scenarios demand models with streaming inference capabilities. This has created a pressing need for models that are simultaneously fast, lightweight, and high-fidelity. However, existing streaming methods typically rely on either autoregressive (AR) or non-autoregressive (NAR) frameworks, which either require large parameter sizes to achieve strong performance or struggle to generalize to unseen speakers. In this study, we propose MeanVC, a lightweight and streaming zero-shot VC approach. MeanVC introduces a diffusion transformer with a chunk-wise autoregressive denoising strategy, combining the strengths of both AR and NAR paradigms for efficient streaming processing. By introducing mean flows, MeanVC regresses the average velocity field during training, enabling zero-shot VC with superior speech quality and speaker similarity in a single sampling step by directly mapping from the start to the endpoint of the flow trajectory. Additionally, we incorporate diffusion adversarial post-training to mitigate over-smoothing and further enhance speech quality. Experimental results demonstrate that MeanVC significantly outperforms existing zero-shot streaming VC systems, achieving superior conversion quality with higher efficiency and significantly fewer parameters. Audio demos and code are publicly available at https://aslp-lab.github.io/MeanVC.


翻译:零样本语音转换(VC)旨在将源说话人的音色迁移至任意未见过的目标说话人,同时保持语言内容不变。日益增长的应用场景要求模型具备流式推理能力,这催生了同时对快速性、轻量级和高保真度具有迫切需求的模型。然而,现有的流式方法通常依赖于自回归(AR)或非自回归(NAR)框架,这些框架要么需要大量参数以实现强性能,要么难以泛化到未见过的说话人。在本研究中,我们提出了MeanVC,一种轻量级流式零样本语音转换方法。MeanVC引入了一种采用分块自回归去噪策略的扩散Transformer,结合了AR与NAR范式的优势以实现高效的流式处理。通过引入均值流,MeanVC在训练过程中回归平均速度场,从而能够通过直接从流轨迹的起点映射到终点,在单次采样步骤中实现具有卓越语音质量和说话人相似度的零样本语音转换。此外,我们结合了扩散对抗性后训练以缓解过度平滑问题,并进一步提升语音质量。实验结果表明,MeanVC显著优于现有的零样本流式语音转换系统,以更高的效率和显著更少的参数实现了更优的转换质量。音频示例和代码公开于 https://aslp-lab.github.io/MeanVC。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员