大语言模型的强化学习技术综述

摘要 —— 强化学习（Reinforcement Learning, RL）已成为对齐与增强大语言模型（Large Language Models, LLMs）的一种变革性方法，能够应对指令遵循、伦理对齐以及推理能力等方面的关键挑战。本文综述了强化学习与语言模型结合的全面基础，重点介绍了如近端策略优化（Proximal Policy Optimization, PPO）、Q学习（Q-Learning）和演员-评论家（Actor-Critic）等主流算法。此外，文章系统回顾了专为LLM定制的强化学习技术，包括基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）和基于AI反馈的强化学习（Reinforcement Learning from AI Feedback, RLAIF）等基础方法，以及偏好直接优化（Direct Preference Optimization, DPO）和群体相对策略优化（Group Relative Policy Optimization, GRPO）等先进策略。我们系统性地分析了这些技术在各领域的应用，从代码生成到工具增强推理不等。本文还基于奖励建模、反馈机制与优化策略提出了一套对比性分类体系。评估结果揭示了一些关键趋势：RLHF 仍然是主导性的对齐技术，而基于结果的强化学习（如 RL with Verified Rewards, RLVR）显著提升了逐步推理能力。然而，奖励欺骗、计算成本高昂以及反馈收集的可扩展性等持续性挑战，凸显了持续创新的必要性。我们进一步探讨了若干新兴方向，包括混合RL算法、验证器引导训练，以及多目标对齐框架。本综述可为研究人员提供一份关于RL驱动的大语言模型开发的路线图，致力于在提升能力的同时兼

性与可扩展性。

关键词 —— 强化学习、大语言模型、RLHF、对齐、推理、自然语言处理、人工智能 **

一、引言

大语言模型（Large Language Models, LLMs）已成为人工智能领域的变革性技术，在理解和生成自然语言方面展现出卓越能力。从 GPT-3 拥有的 1750 亿参数 [1]，到近年来如 LLaMA 3.1 的 4050 亿参数 [2]，以及 DeepSeek-V3 的 6710 亿参数 [3]，这些模型在规模和能力上持续扩展。尽管它们在多种任务中表现出色，LLMs 仍然面临“对齐”（alignment）问题，即确保模型输出始终反映人类的价值观、偏好与意图，仍是一项重大挑战。LLMs 往往会产生“幻觉”（hallucination）[4]，存在生成有害内容的风险 [5]–[7]，并且在执行复杂指令方面常常表现不佳 [8]。

强化学习（Reinforcement Learning, RL）是一种智能体通过与环境交互中的试错过程进行学习的范式，近年来成为应对对齐挑战的强有力框架。与传统依赖标注样本的监督学习方法不同，强化学习能够引入不可微分的反馈信号，并优化多目标的复杂任务。在 LLM 中引入强化学习，标志着人工智能对齐研究的一项重大进展，使模型能够学习人类偏好、提升推理能力，并更好地遵循伦理规范。本文旨在全面审视应用于 LLM 的强化学习技术，聚焦于模型在“对齐人类价值”与“增强推理能力”两方面的提升。

将强化学习应用于 LLM 面临一系列区别于传统 RL 场景的独特挑战。在 LLM 中，状态空间通常由输入提示或对话历史构成，而动作空间则涵盖模型完整的词汇表，形成了一个极其庞大且离散的动作集合。这种高维动作空间对算法设计提出了更高要求，与机器人控制或游戏等传统 RL 应用场景有显著不同。此外，LLM 中的奖励信号通常来自于人类对文本质量、有用性、无害性和诚实性等复杂维度的主观判断，这些属性本质上难以量化。

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）[9] 已成为对齐 LLM 与人类偏好的事实标准。该方法通常包含三个阶段：首先基于高质量示范数据进行有监督微调，其次利用人类偏好数据训练奖励模型，最后使用如近端策略优化（PPO）[10]等算法对策略进行优化。RLHF 在提升指令遵循能力、减少有害输出方面取得了显著成效，OpenAI 的 InstructGPT 即为代表性成果 [9]。

然而，人类标注的可扩展性问题推动了替代方案的发展。基于 AI 反馈的强化学习（Reinforcement Learning from AI Feedback, RLAIF）[11] 用其他 AI 系统的评估结果来替代或增强人类反馈，在维持相近性能的同时大幅降低了标注成本。宪法 AI（Constitutional AI）[12] 是 RLAIF 的一种特化形式，模型根据预定义的原则对自身输出进行批判与修正，尤其适用于无害性对齐。近期的研究进一步致力于简化 RLHF 流程，例如偏好直接优化（Direct Preference Optimization, DPO）[13]，跳过显式奖励建模，直接通过偏好对进行策略优化，在计算效率和训练稳定性方面具有优势。实证研究显示，DPO 在情感控制与摘要等任务中的表现可与基于 PPO 的 RLHF 相媲美甚至超越，同时大大降低了系统复杂度。

除了人类偏好对齐之外，RL 技术也越来越多地用于提升 LLM 的推理能力。基于结果的强化学习（Outcome-Based Reinforcement Learning）[14] 关注最终答案的正确性，即使中间推理步骤未被监督也可进行优化。更先进的方法如带可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）[15]，能为推理过程中的每一步提供反馈，显著提升模型在数学与逻辑推理任务上的表现。例如，RLVR 将 GPT-3.5 在数学推理基准 GSM8K 上的准确率从 56.8% 提升至 72.5%，且仅需少量训练样本。尽管已有显著进展，将 RL 应用于 LLM 仍存在诸多挑战，例如奖励函数被模型“钻空子”的奖励欺骗现象（reward hacking）[16], [17]；以及 RL 训练所需的庞大计算成本，尤其是在参数量级为数十亿的模型上，给实际部署带来困难。此外，不论是来自人类还是 AI 系统，确保反馈的质量与代表性 [18], [19] 仍是一个复杂难解的问题。

本文在该领域的贡献包括以下几点：第一，我们提供了一份关于 RL 技术在 LLM 中应用的全面技术综述，涵盖了如 RLHF 与 RLAIF 等基础方法，以及 DPO 和群体相对策略优化（Group Relative Policy Optimization, GRPO）等前沿方法。第二，我们系统分析了 RL 技术在多个领域的应用，如代码生成与工具增强推理，展现其广泛适应性与有效性。第三，我们提出了一个基于奖励建模、反馈机制与优化策略的对比分类体系，为理解 RL 在 LLM 中的技术生态提供结构化框架。最后，我们还讨论了若干新兴研究方向，包括混合 RL 算法、验证器引导训练，以及多目标对齐框架。

本文其余部分安排如下：第二节介绍 LLM 与强化学习的基础概念；第三节详细讲解为 LLM 改编的具体 RL 算法；第四节探讨用于对齐与推理增强的 RL 技术；第五节展示 RL 在各类应用场景中的实践；第六节提供一套比较分析与评估；第七节讨论现有挑战与局限；第八节展望未来研究方向；第九节总结全文。我们希望通过本综述为研究者与实践者提供一份推动 RL 驱动 LLM 发展的技术路线图，在提升模型能力的同时兼顾安全性与可扩展性。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 54

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

不平衡数据学习的全面综述

专知会员服务

38+阅读 · 2月15日

《面向基础模型的高效参数微调》综述

专知会员服务

32+阅读 · 1月24日

大规模多模态模型数据集、应用类别与分类学综述

专知会员服务

57+阅读 · 2024年12月25日

强化学习增强的大型语言模型：综述

专知会员服务

47+阅读 · 2024年12月17日