Recent studies on end-to-end (E2E) speech generation with large language models (LLMs) have attracted significant community attention, with multiple works extending text-based LLMs to generate discrete speech tokens. Existing E2E approaches primarily fall into two categories: (1) Methods that generate discrete speech tokens independently without incorporating them into the LLM's autoregressive process, resulting in text generation being unaware of concurrent speech synthesis. (2) Models that generate interleaved or parallel speech-text tokens through joint autoregressive modeling, enabling mutual modality awareness during generation. This paper presents DrVoice, a parallel speech-text voice conversation model based on joint autoregressive modeling, featuring dual-resolution speech representations. Notably, while current methods utilize mainly 12.5Hz input audio representation, our proposed dual-resolution mechanism reduces the input frequency for the LLM to 5Hz, significantly reducing computational cost and alleviating the frequency discrepancy between speech and text tokens and in turn better exploiting LLMs' capabilities. Experimental results demonstrate that DrVoice-7B establishes new state-of-the-art (SOTA) on prominent speech benchmarks including OpenAudioBench, VoiceBench, UltraEval-Audio and Big Bench Audio, making it a leading open-source speech foundation model in ~7B models.


翻译:近年来,基于大语言模型(LLMs)的端到端(E2E)语音生成研究引起了学术界的广泛关注,多项工作将基于文本的LLMs扩展为生成离散语音标记。现有的E2E方法主要分为两类:(1)独立生成离散语音标记而不将其纳入LLM自回归过程的方法,导致文本生成无法感知并发的语音合成。(2)通过联合自回归建模生成交错或并行的语音-文本标记的模型,实现了生成过程中的跨模态相互感知。本文提出了DrVoice,一个基于联合自回归建模、具有双分辨率语音表征的并行语音-文本语音对话模型。值得注意的是,当前方法主要使用12.5Hz的输入音频表征,而我们提出的双分辨率机制将LLM的输入频率降低至5Hz,显著降低了计算成本,缓解了语音与文本标记之间的频率差异,从而更好地利用了LLMs的能力。实验结果表明,DrVoice-7B在包括OpenAudioBench、VoiceBench、UltraEval-Audio和Big Bench Audio在内的多个重要语音基准测试中均取得了新的最先进(SOTA)性能,使其成为约70亿参数模型中领先的开源语音基础模型。

0
下载
关闭预览

相关内容

【CVPR2024】VidLA: 大规模视频-语言对齐
专知会员服务
20+阅读 · 2024年3月31日
【NeurIPS2019】图变换网络:Graph Transformer Network
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员