本论文提出了一个通过自监督生成式建模实现可控语音合成的综合框架。我们提出 GUMS(Generative Universal Models for Speech),该系统将语音分解为可解耦的表征——说话人嵌入、声学嵌入以及内容表征,并通过一个合成模型重建语音。该方法能够对说话人音色、环境声学特性、语音内容以及语速进行细粒度控制。 我们引入了三个关键的表征模型。首先,GR0 通过将全局说话人特征与随时间变化的局部内容解耦,在不依赖说话人标签的情况下学习全局说话人嵌入。其次,我们提出内容表征模型 AICGUMS Codec,分别以连续形式与量化形式捕获语音内容。AIC 模型通过 alteration invariant content loss(变换不变内容损失)来确保表征对说话人和音高不敏感。GUMS Codec 基于语音编码器模型 DAC 构建,结合残差向量量化,并引入说话人和音高条件,从而形成一种高度紧凑、离散且与语言无关的表征,非常适用于操作、控制与高效传输。 随后,我们将这些表征整合到一个高保真语音合成模型 DiTVC 中,该模型基于 Diffusion Transformer 架构。DiTVC 支持使用目标说话人音频进行直接提示,而不是依赖固定嵌入,从而实现更具表现力的语音转换和更稳健的韵律控制。通过结合这些模型,我们在未标注的真实环境数据上实现了可控的高质量语音合成。该统一框架在表征学习与生成两个方面均取得了重要进展,为语音合成提供了一种可解释且可编辑的方法。

成为VIP会员查看完整内容
0

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
【博士论文】学习对象和关系的结构化表示
专知会员服务
31+阅读 · 2024年10月14日
【MIT博士论文】物理启发的生成式模型
专知会员服务
34+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
29+阅读 · 2024年8月26日
【伯克利博士论文】控制长篇大型语言模型输出
专知会员服务
33+阅读 · 2024年3月6日
【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
23+阅读 · 2020年7月3日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
492+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员