【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿 - 专知VIP

会员服务 ·

7

ICLR 2025 · 自监督解耦 · 零样本语音模仿 ·

【ICLR2025】VEVO：基于自监督解耦的可控零样本语音模仿

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

语音模仿，尤其是针对特定的语音属性，如音色和说话风格，对于语音生成至关重要。然而，现有的方法往往过度依赖标注数据，且难以有效地解耦音色与风格，这使得在零-shot场景下实现可控生成面临挑战。为解决这些问题，我们提出了Vevo，一个多功能的零样本语音模仿框架，具备可控的音色与风格。Vevo的工作流程分为两个核心阶段：

内容-风格建模：给定文本或语音的内容tokens作为输入，我们使用自回归Transformer生成内容-风格tokens，这一过程受到风格参考的提示；
声学建模：给定内容-风格tokens作为输入，我们采用流匹配Transformer生成声学表示，这一过程受到音色参考的提示。

为了获得语音的内容和内容-风格tokens，我们设计了一种完全自监督的方法，逐步解耦语音的音色、风格和语言内容。具体来说，我们采用VQ-VAE [1]作为HuBERT [2]连续隐藏特征的分词器，将VQ-VAE字典的词汇量视为信息瓶颈，并精心调整该瓶颈，以获得解耦后的语音表示。Vevo在没有针对风格特定语料库的微调下，单纯使用60K小时有声书语音数据进行自监督训练，在口音和情感转换任务中，能够与现有方法匹敌或超越。此外，Vevo在零-shot语音转换和文本到语音任务中的有效性，进一步证明了其强大的泛化能力和多功能性。

成为VIP会员查看完整内容

8

相关内容

ICLR 2025

【ICLR2025】DynaPrompt：动态测试时提示调优

【ICLR2025】DynaPrompt：动态测试时提示调优

专知会员服务

10+阅读 · 2月2日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

23+阅读 · 2023年8月22日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

【CVPR2023】DynamicDet:目标检测的统一动态架构

【CVPR2023】DynamicDet:目标检测的统一动态架构

专知会员服务

26+阅读 · 2023年4月15日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】对抗学习条件变分自编码器的端到端文本转语音

专知会员服务

10+阅读 · 2021年6月21日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

17+阅读 · 2020年6月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

7+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

15+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

97+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

194+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

430+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

134+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

71+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

VIP会员

相关主题

自监督解耦

零样本语音模仿

相关VIP内容

【ICLR2025】DynaPrompt：动态测试时提示调优

【ICLR2025】DynaPrompt：动态测试时提示调优

专知会员服务

10+阅读 · 2月2日

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

专知会员服务

15+阅读 · 2024年12月6日

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络

专知会员服务

17+阅读 · 2024年3月4日

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

【CIKM2023】GiGaMAE: 通过协同潜在空间重建的可泛化图掩码自编码器

专知会员服务

23+阅读 · 2023年8月22日

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

【CVPR2023】DynamicDet:目标检测的统一动态架构

【CVPR2023】DynamicDet:目标检测的统一动态架构

专知会员服务

26+阅读 · 2023年4月15日

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

【CVPR2022】EDTER：基于Transformer的边缘检测（CVPR2022）

专知会员服务

33+阅读 · 2022年3月18日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】对抗学习条件变分自编码器的端到端文本转语音

专知会员服务

10+阅读 · 2021年6月21日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机在俄乌战争中的应用：颠覆性军事创新及其对陆军部队发展的影响》最新103页

《对抗环境中定向网络节点的弹性拓扑控制》最新279页

未来战争：现代冲突中的自主技术

《一体化网络簇》201页论文

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

18+阅读 · 2021年3月28日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【MIT】硬负样本的对比学习

【MIT】硬负样本的对比学习

专知

13+阅读 · 2020年10月15日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

17+阅读 · 2020年6月26日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

12+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【CVPR2019】弱监督图像分类建模

【CVPR2019】弱监督图像分类建模

深度学习大讲堂

38+阅读 · 2019年7月25日

MNIST入门：贝叶斯方法

MNIST入门：贝叶斯方法

Python程序员

23+阅读 · 2017年7月3日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

7+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

5+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于融合先验知识的机器学习的多传感器融合研究

国家自然科学基金

15+阅读 · 2013年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

164+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

97+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

194+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

430+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

134+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

71+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员