语音识别技术在日常生活中发挥着重要作用,从语音助手、智能家居到自动化客服系统,均离不开它的支持。得益于深度学习技术和大型语言模型(LLM)的最新进展,端到端自动语音识别(ASR) 已取得显著突破。然而,要使 ASR 系统在复杂多变的真实环境中保持鲁棒性仍面临巨大挑战,尤其是在常见的噪声场景下。 现有针对噪声鲁棒 ASR 的研究通常通过增强标准 ASR 系统实现,其主要可分为三类方法,依据增强所作用的阶段不同——即输入语音、模型中间表示或输出文本: 1. 输入级增强:第一类方法利用语音增强(SE) 作为前端模块,在识别前对输入语音进行去噪,从而构建联合 SE-ASR 系统。虽然该方法在某些场景中确实提升了识别性能,但前端 SE 处理可能会引入语音失真,从而削弱后端 ASR 的效果。 1. 中间表示级增强:第二类方法聚焦于语音编码器的改进,以学习对多样语音输入更加鲁棒的表征。代表性工作包括自监督学习(SSL)大规模弱监督学习。尽管这些方法取得了成功,但研究发现,其所得语音表示并非天然具有噪声不变性,反而往往编码了诸如背景噪声或音频事件等非语音信息,表明仍存在进一步改进的空间。 1. 输出级增强:第三类方法针对 ASR 的 N-best 假设列表,引入外部语言模型(LM) 进行重打分与重排序。虽然这种方法效果显著,但传统 LM 重打分通常仅选择得分最高的假设作为最终输出,并舍弃其余假设。然而,研究表明这些被舍弃的假设中往往包含有价值的信息,甚至包含部分正确的转录片段,从而造成潜在的信息损失。

本论文围绕上述三类方法的核心局限展开研究,并提出相应改进以提升最终性能,具体包括:

(1)前端 SE 去噪方法

针对 SE 去噪引起的语音失真问题,我们提出两种逐步缓解失真的方法。 首先,提出交互式特征融合网络(Interactive Feature Fusion Network, IFF-Net),通过从原始含噪语音中学习互补特征,以恢复增强语音中被破坏的部分。 在此基础上,进一步提出**双路径风格学习(Dual-Path Style Learning, DPSL)**方法,通过从平行的干净语音中学习额外信息,以进一步降低失真。实验结果表明,这两种方法在多种噪声条件下均显著提升了 ASR 性能。

(2)鲁棒表示学习方法

针对中间表示的鲁棒性问题,我们提出一种离散语音建模方法,以增强噪声语音表征的稳健性。 我们首先在预训练阶段通过自构机制(self-construction)将干净语音表示存储到离散码本(discrete codebook)中;在 ASR 微调阶段,引入码预测器(code predictor),从预训练的码本中检索对应的干净表示,从而提升原始含噪输入的下游识别性能。多项基准实验验证了该方法的有效性。

(3)ASR 后处理方法

针对输出级的改进,我们探索了将大型语言模型(LLM)能力引入 ASR 后处理的两种新方法。 首先,提出生成式错误纠正(Generative Error Correction, GER)范式,利用 LLM 从 N-best 假设中直接生成真实转录文本。同时,我们构建并公开了一个假设到转录(Hypotheses-to-Transcription)数据集,以支持 LLM 的微调。尽管 GER 整体效果良好,但在高噪声条件下提升有限。 为此,我们进一步提出**鲁棒生成式错误纠正(RobustGER)方法,引入“语言噪声(language noise)”概念,使 LLM 能自适应地理解并修正受噪声影响的假设。多项噪声 ASR 基准实验表明,RobustGER 显著优于现有方法。 此外,为验证所提方法在最新 LLM 主干上的有效性,我们进一步将这些方法扩展到音频大型语言模型(audio LLM)**上,并获得了相似的性能提升。 综上所述,本论文在不同模型规模下提供了应对噪声鲁棒 ASR 的全新系统性方法,为鲁棒语音识别研究提供了新的见解与可行路径,并为多场景实际应用奠定了坚实基础。

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员