【普林斯顿博士论文】用于语音的生成式通用模型 - 专知VIP

会员服务 ·

0

语音识别 · 生成式通用模型 ·

【普林斯顿博士论文】用于语音的生成式通用模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本论文提出了一个通过自监督生成式建模实现可控语音合成的综合框架。我们提出 GUMS（Generative Universal Models for Speech），该系统将语音分解为可解耦的表征——说话人嵌入、声学嵌入以及内容表征，并通过一个合成模型重建语音。该方法能够对说话人音色、环境声学特性、语音内容以及语速进行细粒度控制。我们引入了三个关键的表征模型。首先，GR0 通过将全局说话人特征与随时间变化的局部内容解耦，在不依赖说话人标签的情况下学习全局说话人嵌入。其次，我们提出内容表征模型 AIC 与 GUMS Codec，分别以连续形式与量化形式捕获语音内容。AIC 模型通过 alteration invariant content loss（变换不变内容损失）来确保表征对说话人和音高不敏感。GUMS Codec 基于语音编码器模型 DAC 构建，结合残差向量量化，并引入说话人和音高条件，从而形成一种高度紧凑、离散且与语言无关的表征，非常适用于操作、控制与高效传输。随后，我们将这些表征整合到一个高保真语音合成模型 DiTVC 中，该模型基于 Diffusion Transformer 架构。DiTVC 支持使用目标说话人音频进行直接提示，而不是依赖固定嵌入，从而实现更具表现力的语音转换和更稳健的韵律控制。通过结合这些模型，我们在未标注的真实环境数据上实现了可控的高质量语音合成。该统一框架在表征学习与生成两个方面均取得了重要进展，为语音合成提供了一种可解释且可编辑的方法。

成为VIP会员查看完整内容

0

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

19+阅读 · 6月11日

【博士论文】学习对象和关系的结构化表示

【博士论文】学习对象和关系的结构化表示

专知会员服务

31+阅读 · 2024年10月14日

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

专知会员服务

22+阅读 · 2024年9月30日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

34+阅读 · 2024年9月6日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【阿姆斯特丹博士论文】多模态学习算法的序列建模和表示学习

【阿姆斯特丹博士论文】多模态学习算法的序列建模和表示学习

专知会员服务

26+阅读 · 2024年6月1日

【普林斯顿博士论文】语言智能体: 从下一词元预测到数字自动化

【普林斯顿博士论文】语言智能体: 从下一词元预测到数字自动化

专知会员服务

39+阅读 · 2024年5月14日

【伯克利博士论文】控制长篇大型语言模型输出

【伯克利博士论文】控制长篇大型语言模型输出

专知会员服务

33+阅读 · 2024年3月6日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

44+阅读 · 2019年10月28日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

492+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

生成式通用模型

相关VIP内容

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

19+阅读 · 6月11日

【博士论文】学习对象和关系的结构化表示

【博士论文】学习对象和关系的结构化表示

专知会员服务

31+阅读 · 2024年10月14日

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

【NTU博士论文】改进图结构数据上的表示学习用于分类、生成和推荐

专知会员服务

22+阅读 · 2024年9月30日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

34+阅读 · 2024年9月6日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

29+阅读 · 2024年8月26日

【阿姆斯特丹博士论文】多模态学习算法的序列建模和表示学习

【阿姆斯特丹博士论文】多模态学习算法的序列建模和表示学习

专知会员服务

26+阅读 · 2024年6月1日

【普林斯顿博士论文】语言智能体: 从下一词元预测到数字自动化

【普林斯顿博士论文】语言智能体: 从下一词元预测到数字自动化

专知会员服务

39+阅读 · 2024年5月14日

【伯克利博士论文】控制长篇大型语言模型输出

【伯克利博士论文】控制长篇大型语言模型输出

专知会员服务

33+阅读 · 2024年3月6日

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

【MIT博士论文】通过奇异值分解、端到端基于模型的方法和奖励塑造的有效强化学习

专知会员服务

49+阅读 · 2022年9月22日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

Deep Research（深度研究）：系统性综述

《革新战术战场空间能力：反无人机系统》报告

【普林斯顿博士论文】用于语音的生成式通用模型

螺旋式开发作为战略资产：美军启示

相关资讯

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知

11+阅读 · 2021年2月8日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

23+阅读 · 2020年7月3日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知

12+阅读 · 2020年6月9日

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

【CVPR2020-旷视】DPGN：分布传播图网络的小样本学习

专知

13+阅读 · 2020年4月1日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

专知

44+阅读 · 2019年10月28日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

论文浅尝 | 基于神经网络的知识推理

论文浅尝 | 基于神经网络的知识推理

开放知识图谱

14+阅读 · 2018年3月12日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

2+阅读 · 2015年12月31日

基于路径全局结构可用性特征的混序制造服务组合建模理论与优选方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

492+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员