Multilingual Retrieval-Augmented Generation (RAG) enables large language models (LLMs) to perform knowledge-intensive tasks in multilingual settings by leveraging retrieved documents as external evidence. However, when the retrieved evidence differs in language from the user query and in-context exemplars, the model often exhibits language drift by generating responses in an unintended language. This phenomenon is especially pronounced during reasoning-intensive decoding, such as Chain-of-Thought (CoT) generation, where intermediate steps introduce further language instability. In this paper, we systematically study output language drift in multilingual RAG across multiple datasets, languages, and LLM backbones. Our controlled experiments reveal that the drift results not from comprehension failure but from decoder-level collapse, where dominant token distributions and high-frequency English patterns dominate the intended generation language. We further observe that English serves as a semantic attractor under cross-lingual conditions, emerging as both the strongest interference source and the most frequent fallback language. To mitigate this, we propose Soft Constrained Decoding (SCD), a lightweight, training-free decoding strategy that gently steers generation toward the target language by penalizing non-target-language tokens. SCD is model-agnostic and can be applied to any generation algorithm without modifying the architecture or requiring additional data. Experiments across three multilingual datasets and multiple typologically diverse languages show that SCD consistently improves language alignment and task performance, providing an effective and generalizable solution in multilingual RAG.


翻译:多语言检索增强生成(RAG)使大型语言模型(LLM)能够通过利用检索到的文档作为外部证据,在多语言环境中执行知识密集型任务。然而,当检索到的证据与用户查询及上下文示例的语言不同时,模型常表现出语言漂移,即以非预期语言生成回复。这一现象在推理密集型解码(如思维链生成)中尤为显著,其中间步骤会引入进一步的语言不稳定性。本文系统研究了多语言RAG在多个数据集、语言和LLM骨干网络中的输出语言漂移。我们的控制实验表明,漂移并非源于理解失败,而是由解码器级崩溃导致——主导的令牌分布和高频英语模式压制了预期生成语言。我们进一步观察到,在跨语言条件下,英语充当了语义吸引子,既是最强的干扰源,也是最常见的回退语言。为缓解此问题,我们提出软约束解码(SCD),一种轻量级、无需训练的的解码策略,通过惩罚非目标语言令牌,温和地将生成引导至目标语言。SCD与模型无关,可应用于任何生成算法,无需修改架构或额外数据。在三个多语言数据集及多种类型学多样语言上的实验表明,SCD持续提升了语言对齐和任务性能,为多语言RAG提供了一种有效且可泛化的解决方案。

0
下载
关闭预览

相关内容

国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员