We present Step-Audio-EditX, the first open-source LLM-based audio model excelling at expressive and iterative audio editing encompassing emotion, speaking style, and paralinguistics alongside robust zero-shot text-to-speech (TTS) capabilities.Our core innovation lies in leveraging only large-margin synthetic data, which circumvents the need for embedding-based priors or auxiliary modules. This large-margin learning approach enables both iterative control and high expressivity across voices, and represents a fundamental pivot from the conventional focus on representation-level disentanglement. Evaluation results demonstrate that Step-Audio-EditX surpasses both MiniMax-2.6-hd and Doubao-Seed-TTS-2.0 in emotion editing and other fine-grained control tasks.


翻译:我们提出了Step-Audio-EditX,这是首个基于大型语言模型的开源音频模型,在情感、说话风格和副语言特征方面表现出卓越的表达性和迭代音频编辑能力,同时具备鲁棒的零样本文本到语音(TTS)功能。我们的核心创新在于仅利用大间隔合成数据,从而避免了基于嵌入的先验知识或辅助模块的需求。这种大间隔学习方法实现了跨语音的迭代控制和高表达性,并代表了对传统表征级解耦关注的根本性转变。评估结果表明,Step-Audio-EditX在情感编辑及其他细粒度控制任务上超越了MiniMax-2.6-hd和Doubao-Seed-TTS-2.0。

0
下载
关闭预览

相关内容

【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)
专知会员服务
10+阅读 · 2022年3月4日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月18日
Arxiv
0+阅读 · 12月16日
Arxiv
0+阅读 · 12月8日
Arxiv
0+阅读 · 11月26日
VIP会员
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
将Python用于NLP:Pattern 库简介
Python程序员
15+阅读 · 2019年6月7日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关论文
Arxiv
0+阅读 · 12月18日
Arxiv
0+阅读 · 12月16日
Arxiv
0+阅读 · 12月8日
Arxiv
0+阅读 · 11月26日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员