Speech codecs are traditionally optimized for waveform fidelity, allocating bits to preserve acoustic detail even when much of it can be inferred from linguistic structure. This leads to inefficient compression and suboptimal performance on downstream recognition tasks. We propose SemDAC, a semantic-aware neural audio codec that leverages semantic codebooks as effective priors for speech compression. In SemDAC, the first quantizer in a residual vector quantization (RVQ) stack is distilled from HuBERT features to produce semantic tokens that capture phonetic content, while subsequent quantizers model residual acoustics. A FiLM-conditioned decoder reconstructs audio conditioned on the semantic tokens, improving efficiency in the use of acoustic codebooks. Despite its simplicity, this design proves highly effective: SemDAC outperforms DAC across perceptual metrics and achieves lower WER when running Whisper on reconstructed speech, all while operating at substantially lower bitrates (e.g., 0.95 kbps vs. 2.5 kbps for DAC). These results demonstrate that semantic codebooks provide an effective inductive bias for neural speech compression, producing compact yet recognition-friendly representations.


翻译:传统语音编解码器以波形保真度为优化目标,即使大部分声学细节可从语言结构推断,仍分配比特以保留这些细节。这导致压缩效率低下,且在下游识别任务中表现欠佳。我们提出SemDAC,一种语义感知的神经音频编解码器,利用语义码本作为语音压缩的有效先验。在SemDAC中,残差向量量化(RVQ)堆栈的第一个量化器通过从HuBERT特征蒸馏产生语义标记以捕获语音内容,而后续量化器则建模残差声学信息。通过FiLM条件解码器在语义标记条件下重建音频,提高了声学码本的使用效率。尽管设计简洁,该方案被证明高度有效:SemDAC在感知指标上超越DAC,且在重建语音上运行Whisper时获得更低的词错误率(WER),同时以显著更低的比特率运行(例如0.95 kbps对比DAC的2.5 kbps)。这些结果表明语义码本为神经语音压缩提供了有效的归纳偏置,能生成紧凑且利于识别的表征。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员