基于人工反馈的强化学习综述

人类反馈强化学习（RLHF）是强化学习（RL）的一个变体，它从人类反馈中学习，而不是依赖于工程化的奖励函数。建立在相关领域的偏好基强化学习（PbRL）的先前工作上，它位于人工智能和人机交互的交汇点。这一定位为提高智能系统的性能和适应性提供了有希望的途径，同时也改善了它们的目标与人类价值观的一致性。在近年来，大型语言模型（LLMs）的训练已经令人印象深刻地展示了这一潜力，其中RLHF在使模型的能力针对人类目标方面发挥了决定性作用。本文提供了一个全面的RLHF基础概述，探索了机器智能体和人类输入之间复杂的动态。虽然最近的焦点是针对LLMs的RLHF，但我们的综述采取了更广泛的视角，考察了这项技术的多样化应用和广泛影响。我们深入探讨支撑RLHF的核心原则，阐明算法与人类反馈之间的共生关系，并讨论了该领域的主要研究趋势。通过综合当前RLHF研究的全景，本文旨在为研究人员和从业者提供对这一迅速发展领域的全面理解。

1 引言

在强化学习（RL）中，智能体传统上通过环境导航，并试图通过试错过程做出最优的行动或决策。一个决策是否最优完全由奖励信号决定。这些信号必须基于智能体性能的测量手动定义，以确保学习智能体接收到学习正确行为所需的信号。然而，手动设计奖励函数是具有挑战性的。在许多应用中，成功难以正式定义和衡量。除此之外，稀疏的成功信号可能不适合智能体学习——导致需要奖励塑形（Ng等人，1999），即将奖励信号转化为更适合学习的形式。这通常使奖励信号更容易受到假性相关的影响，即因通常与真正目标相关而被奖励的行为，并不本身具有价值。这最终导致了奖励黑客问题（Skalse等人，2022b），即学习智能体利用奖励特定的漏洞以实现不希望的结果，同时仍然产生高奖励。

作为对这些挑战的回应，人类反馈强化学习（RLHF）作为一种实际意义上的替代方案出现，它在标准RL学习范式中引入了至关重要的人在循环中组件。简而言之，RLHF与RL的不同之处在于，目标是由循环中的人定义并迭代完善的，而不是提前指定的。这种方法不仅有潜力克服经典RL方法的局限性和问题，而且对智能体对齐有潜在的好处，其中智能体的学习目标与人类价值观更紧密对齐，促进伦理上健全和社会负责的AI系统。自上一次类似的综述（Wirth等人，2017）以来，RLHF在应用、方法论进展和理论见解方面取得了许多成功。应用范围从大型语言模型（LLMs）（OpenAI 2022）到图像生成（Lee等人，2023），连续控制（Christiano等人，2017）和游戏（Ibarz等人，2018）以及机器人（Hejna等人，2023a）。与此同时，自上次类似的综述（Wirth等人，2017）以来，方法论也有了很多发展。方法论发展的例子包括使用数据增强和半监督学习方法来提高样本复杂度（Park等人，2022），使用元学习快速适应学习的偏好到新任务（Ren等人，2022），融合多种反馈类型（Palan等人，2019），使用自监着表征学习提高反馈效率（Metcalf等人，2022），主动合成假设行为进行查询（Reddy等人，2020），以及优化查询以便于回答（Bıyık等人，2020b）。最后，RLHF领域也取得了一些理论成果，为基础数学问题的建模提供了新的见解，但也提出了新的问题。

因此，在这项综述中，我们讨论了RLHF正在进行的研究的当前状态，分类了当前的方法以及简洁地描述了它们的主要特征，并对应用领域进行了简要概述。

1.1 为何需要人类反馈在传统的RL中，代理的目标由其旨在最大化的奖励函数定义（Sutton等人，2018）。特别是在复杂领域，指定这个奖励函数可能是具有挑战性的：对于在家庭环境中协助人类的机器人或在繁忙的城市环境中导航的自动驾驶汽车，合适的奖励函数是什么样的？此外，即使是定义良好的奖励函数也可能由于分布变化或过度优化导致意外行为，引发实际和安全问题。从人类反馈中学习代理的目标，可以绕过奖励工程挑战，并促进稳健训练，随着代理学习，奖励函数会动态地细化和调整，以适应分布变化。反馈与示范逆向RL旨在从人类示范中推断出奖励函数（Arora等人，2021）。虽然这可以部分解决奖励工程挑战，但它面临内在困难：（i）通常不可能从示范中稳健地识别奖励（Cao等人，2021a），（ii）仅适用于可以获得良好示范的场景，（iii）难以超越示范者的表现，以及（iv）人类通常不会展示他们希望机器采用的行为（Basu等人，2017）。相比之下，交互式反馈可以使用主动查询区分人类偏好和无关噪声，比提供示范更容易，不要求人类评估者接近最优表现，并引导出人类更偏好的机器行为。交互式反馈也可以用来补充示范，在这种情况下，它可以用来塑造和完善通过初步训练（如行为克隆）学到的能力，从而防止过拟合于示范行为（Abramson等人，2022）。避免奖励工程在RL中的奖励工程提出了重大挑战，因为准确指定奖励函数是众所周知的困难（Amodei等人，2016; Knox等人，2023）。通过利用人类反馈，可以缓解这些挑战，使代理能够训练难以手动定义的任务，并帮助避免由不匹配的奖励引起的安全问题（Skalse等人，2022b）。与代理的目标和人类目标之间的不匹配相关的安全问题被研究为AI对齐问题（Gabriel 2020），特别是代理对齐和价值对齐（Kirchner等人，2022）。尽管RLHF在解决这些对齐问题的有效性仍存在争议（Christiano 2023），但它提出了一个促进对齐的有希望的方法（Leike等人，2018）。过度优化不良指定的奖励通常会导致意外行为。代理可能会利用模拟缺陷获得更高奖励（Lehman等人，2020; Baker等人，2020）或参与奖励黑客行为（Skalse等人，2022b），即行为最大化了指定奖励但偏离了预期目标。这在代理专注于中间奖励而没有实现实际目标（Clark等人，2016）或为避免负面奖励而过早退出游戏（Saunders等人，2018）的情况下显而易见。这些问题的根源在于奖励函数没有正确反映实际学习任务。虽然这些问题在类似游戏的环境中可能看似微不足道，但在诸如医疗保健和自动驾驶等安全关键的环境中，其含义则更为严重。在这些环境中，防止不匹配的奖励函数导致有害结果至关重要，比如护理机器人造成伤害或自动驾驶汽车危及道路安全。

1.2 人类反馈强化学习的起源

作为RL的一个子领域，从人类反馈中学习行为已经被研究了很长时间，但方法和术语随时间发展而演变。如Knox（2012）更详细讨论的早期方法，侧重于直接从人类奖励中学习（Isbell等人，2001；Knox等人，2008）。然而，本综述关注的是更间接的方法，即从人类反馈中推断目标。人类反馈强化学习（RLHF）的现代形式起源于偏好基强化学习（PbRL）的设置，最初由Akrour等人（2011）和Cheng等人（2011）独立引入。PbRL的原始想法是从定性反馈中推断目标，如行为或给定状态下行动之间的成对偏好，而不是以数值奖励形式的定量反馈。RLHF这个术语后来作为一个替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），尽管最初指的是从相对反馈中学习行为的同一概念。由于文献中的使用重叠，PbRL和RLHF的区分具有挑战性。例如，Christiano等人（2017）自己使用了PbRL这个术语，但却常被引用为RLHF的开创性参考（Daniels-Koch等人，2022；Ouyang等人，2022）。这表明了这些术语的可互换性。实际上，RLHF通常与奖励建模和深度RL相关联，而PbRL通常与传统RL设置中的直接策略优化联系在一起。这一点由Jeon等人（2020）强调，他们将PbRL限定为仅从偏好直接进行策略学习。然而，这与其他来源不同，后者将奖励学习包括在RLHF的范围内（Christiano等人，2017；Wirth等人，2017）。

尽管存在重叠和有时存在冲突的使用，RLHF越来越被视为PbRL的一种泛化。尽管PbRL和RLHF都涉及使用人类反馈来定义RL目标，但PbRL主要关注相对反馈，如二元比较和排名。RLHF不仅包括这些方面，还扩展到更广泛的反馈类型（Metz等人，2023）。表1提供了我们对这些术语的解释性概述。

从人类反馈中学习行为长期以来被作为RL的一个子领域进行研究，但随着时间的推移，方法和术语已经发展。早期方法，如Knox（2012）详细讨论的，侧重于直接从人类奖励中学习（Isbell等人，2001；Knox等人，2008）。然而，本综述关注的是更间接的推断目标的方法，即从人类反馈中推断。人类反馈强化学习（RLHF）的现代形式起源于偏好基强化学习（PbRL）的设置，最初由Akrour等人（2011）和Cheng等人（2011）独立引入。PbRL的原始想法是从定性反馈中推断目标，而不是使用定量的数值奖励。RLHF这个术语后来作为一个替代品被提出（Askell等人，2021；Ouyang等人，2022；OpenAI 2022），尽管最初指的是从相对反馈中学习行为的同一概念。

由于文献中的使用重叠，PbRL和RLHF的区分具有挑战性。例如，Christiano等人（2017）自己使用了PbRL这个术语，但却常被引用为RLHF的开创性参考（Daniels-Koch等人，2022；Ouyang等人，2022）。这表明了这些术语的可互换性。实际上，RLHF通常与奖励建模和深度RL相关联，而PbRL通常与传统RL设置中的直接策略优化联系在一起。Jeon等人（2020）将PbRL限定为仅从偏好直接进行策略学习，而Christiano等人（2017）和Wirth等人（2017）则将奖励学习包括在RLHF的范围内。

尽管存在重叠和有时存在冲突的使用，RLHF越来越被视为PbRL的一种泛化。PbRL和RLHF都涉及使用人类反馈来定义RL目标，但PbRL主要关注相对反馈，如二元比较和排名。RLHF不仅包括这些方面，还扩展到更广泛的反馈类型（Metz等人，2023）。我们的综述提供了这些术语的解释性概述。

1.3 综述范围

本节概述了我们选择RLHF领域方法的指导标准。我们关注的是那些依赖奖励模型作为目标信息唯一来源的作品。这个奖励模型应该以互动、在线、可扩展和异步的方式学习。以下将详细描述这些标准。

奖励建模我们关注的是从人类反馈中学习奖励模型，然后使用这个模型来训练策略的方法。尽管可以直接从人类反馈中优化策略（Wirth等人，2017），但到目前为止，这种方法很少被实践。奖励学习和策略训练的分解提供了许多概念上和实际上的好处。

人类定义尽管有许多方法将人类包括在RL循环中，但在本综述中，我们关注的是以人类反馈作为目标唯一真理来源的方法。这排除了奖励塑形、特征工程和其他形式的人类指导。

互动和在线我们还强调以互动、在线方式提供反馈。这排除了模仿学习、从示范学习和纯逆向RL。可扩展和异步我们关注的是将人类包括在循环中，但代理不被人类反馈阻塞，人类也不需要持续存在的工作。此外，我们主要关注2017年后发表的作品，因为更早的作品已由Wirth等人（2017）综述。然而，为了阐述仍然是最新技术或已经显著塑造了最新技术的某些概念，我们不时回顾这一时期的一些作品。如果使用的方法对RLHF方法有兴趣，将会作出例外。

1.4 先前的综述

根据上一节提到的标准，我们首先将我们的综述与其他边缘相关主题领域的综述区分开来，这些领域共享人类参与RL的共同主题。然后，我们将描述我们的综述与RLHF领域内存在的先前综述或类似综述文章的差异。