【Nathan Lambert新书】从人类反馈中进行强化学习: 关于语言模型的RLHF及后训练阶段的简要介绍

来自人类反馈的强化学习（RLHF） 已成为部署最新机器学习系统的重要技术手段和叙事工具。在本书中，我们希望为具备一定数量背景的读者提供对核心方法的温和入门。本书从 RLHF 的起源讲起——既包括近年来的相关文献，也包括经济学、哲学与最优控制等多个学科的交汇与融合。随后，我们通过定义、问题建模、数据收集以及文献中常见的数学工具，为读者搭建理解基础。我们将详细介绍当前主流的算法，并探讨 RLHF 的未来前沿方向。来自人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）是一种将人类信息融入人工智能系统的技术。RLHF 最初作为一种解决难以明确定义问题的方法而出现。它的早期应用多见于控制问题以及强化学习（RL）传统领域中。RLHF 因 ChatGPT 的发布以及随后大型语言模型（LLMs）和其他基础模型的迅猛发展而广为人知。 RLHF 的基本流程包括三个步骤：首先，需要训练一个能够理解并响应用户提问的语言模型（详见第9章）；其次，需要收集人类偏好数据，以用于训练反映人类偏好的奖励模型（详见第7章）；最后，使用选定的强化学习优化器，通过采样生成内容并根据奖励模型评分，来优化语言模型（详见第3章与第11章）。本书将详细介绍这一流程中关键的决策点以及基础的实现示例。随着技术的成熟，RLHF 已被成功应用于多个领域，任务复杂性也随之提升。RLHF 的早期突破性实验涵盖了深度强化学习 [1]、文本摘要 [2]、指令跟随 [3]、网页信息解析与问答 [4] 以及“对齐”任务 [5]。图1展示了早期 RLHF 方法的概览。在现代语言模型的训练中，RLHF 通常是后训练（post-training）的一部分。后训练是一套更完整的方法与最佳实践，旨在提升语言模型在下游任务中的实用性 [6]。后训练主要包括以下三种优化方法： 1. 指令/监督微调（IFT/SFT）：教授模型如何理解格式和基本的指令跟随能力，主要关注语言中的特征学习。 1. 偏好微调（PreFT）：使模型更符合人类偏好，同时也略微提升模型的能力，主要涉及语言风格和难以量化的细微人类偏好。 1. 强化微调（RFT）：最新的一类后训练方法，提升模型在可验证任务中的表现。

本书聚焦于第二部分——偏好微调。相较于指令微调，其复杂度更高；而相比于强化微调，其发展更为成熟。尽管如此，RLHF 这个术语在日常语境中已逐渐涵盖了整个后训练过程。自 ChatGPT 发布后，RLHF 就被广义地用于描述所有后训练技术。而 RLHF 的基础远不止人类偏好，本书将对所有相关主题做出介绍。