Neural Speech Codecs face a fundamental trade-off at low bitrates: preserving acoustic fidelity often compromises semantic richness. To address this, we introduce SACodec, a novel codec built upon an asymmetric dual-quantizer that employs our proposed Semantic Anchoring mechanism. This design strategically decouples the quantization of Semantic and Acoustic details. The semantic anchoring is achieved via a lightweight projector that aligns acoustic features with a frozen, large-scale mHuBERT codebook, injecting linguistic priors while guaranteeing full codebook utilization. Sequentially, for acoustic details, a residual activation module with SimVQ enables a single-layer quantizer (acoustic path) to faithfully recover fine-grained information. At just 1.5 kbps, SACodec establishes a new state of the art by excelling in both fidelity and semantics: subjective listening tests confirm that its reconstruction quality is perceptually highly comparable to ground-truth audio, while its tokens demonstrate substantially improved semantic richness in downstream tasks.


翻译:神经语音编解码器在低比特率下面临一个根本性的权衡:保持声学保真度往往会牺牲语义丰富性。为解决此问题,我们提出了SACodec,这是一种基于非对称双量化器的新型编解码器,它采用了我们提出的语义锚定机制。该设计策略性地解耦了语义细节和声学细节的量化。语义锚定通过一个轻量级投影器实现,该投影器将声学特征与一个冻结的大规模mHuBERT码本对齐,在注入语言学先验的同时保证了码本的完全利用。随后,对于声学细节,一个带有SimVQ的残差激活模块使得单层量化器(声学路径)能够忠实地恢复细粒度信息。在仅1.5 kbps的比特率下,SACodec在保真度和语义方面均表现出色,确立了新的技术标杆:主观听力测试证实其重建质量在感知上与真实音频高度可比,而其编码令牌在下游任务中展现出显著提升的语义丰富性。

0
下载
关闭预览

相关内容

【CVPR2024】VideoMAC: 视频掩码自编码器与卷积神经网络
专知会员服务
17+阅读 · 2024年3月4日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员