Recent advances in automatic speech recognition (ASR) have combined speech encoders with large language models (LLMs) through projection, forming Speech LLMs with strong performance. However, adapting them to new domains remains challenging, especially in low-resource settings where paired speech-text data is scarce. We propose a text-only fine-tuning strategy for Speech LLMs using unpaired target-domain text without requiring additional audio. To preserve speech-text alignment, we introduce a real-time evaluation mechanism during fine-tuning. This enables effective domain adaptation while maintaining source-domain performance. Experiments on LibriSpeech, SlideSpeech, and Medical datasets show that our method achieves competitive recognition performance, with minimal degradation compared to full audio-text fine-tuning. It also improves generalization to new domains without catastrophic forgetting, highlighting the potential of text-only fine-tuning for low-resource domain adaptation of ASR.


翻译:近年来,自动语音识别(ASR)领域通过将语音编码器与大型语言模型(LLM)进行投影融合,形成了性能强大的语音大语言模型。然而,将其适配到新领域仍然具有挑战性,尤其是在配对语音-文本数据稀缺的低资源场景下。本文提出一种针对语音大语言模型的纯文本微调策略,仅利用未配对的目标领域文本而无需额外音频数据。为保持语音-文本对齐特性,我们在微调过程中引入了实时评估机制。该方法在实现有效领域自适应的同时,保持了源领域的性能。在LibriSpeech、SlideSpeech和医学数据集上的实验表明,本方法取得了具有竞争力的识别性能,与完整的音频-文本微调相比性能下降极小。该方法还能提升对新领域的泛化能力且未出现灾难性遗忘,凸显了纯文本微调在ASR低资源领域自适应中的潜力。

0
下载
关闭预览

相关内容

使用RNN-Transducer进行语音识别建模【附PPT与视频资料】
人工智能前沿讲习班
74+阅读 · 2019年1月29日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员