搜索与学习的扩展：从强化学习角度重现o1的路线图

OpenAI的o1代表了人工智能领域的一个重要里程碑，它在许多需要强大推理能力的挑战性任务上达到了专家级的表现。OpenAI声称，o1背后的主要技术是强化学习（OpenAI, 2024a; b）。近期的研究使用了其他方法，如知识蒸馏，来模仿o1的推理风格，但它们的有效性受限于教师模型的能力上限。因此，本文从强化学习的角度分析实现o1的路线图，重点讨论四个关键组件：策略初始化、奖励设计、搜索和学习。策略初始化使模型能够发展出类人推理行为，使其具备有效探索复杂问题解空间的能力。奖励设计通过奖励塑造或奖励建模提供密集而有效的信号，这些信号为搜索和学习提供了指导。搜索在训练和测试阶段生成高质量解中起着至关重要的作用，它能够通过更多的计算产生更好的解决方案。学习则利用搜索生成的数据来改进策略，从而通过更多的参数和更多的搜索数据实现更好的性能。现有的开源项目，尝试重现o1的工作，可以看作是我们路线图的一部分或变体。总的来说，这些组件突显了学习和搜索如何推动o1的进步，并为大规模语言模型（LLM）的发展做出了有意义的贡献。

从强化学习的角度，o1代表了人工智能领域的一个重要里程碑，它能够生成非常长的推理过程并进行类人推理动作，例如澄清和分解问题、反思并纠正之前的错误、在遇到失败模式时探索新解。o1模型大大超越了先前大规模语言模型（LLMs）的推理能力，达到了相当于博士级水平的表现。其卓越的推理成就标志着OpenAI在其实现人工通用智能（AGI）五阶段路线图中的第二阶段（“推理者”）取得了重要进展。 OpenAI的o1博客和系统卡片显示，o1的性能随着强化学习和推理计算能力的增加而不断提升（OpenAI，2024a；b）。这表明o1可能在人工智能领域推动两次范式转变：从（自我）监督学习到强化学习，以及从仅仅扩展训练计算到同时扩展训练和推理计算。

o1通过强化学习扩展训练时的计算，通过更多的思考扩展测试时的计算。我们将搜索作为实现o1思考过程的方式，因为搜索是可扩展的（Sutton，2019），并且有许多成功的研究在强化学习中使用搜索来进行训练和决策，例如AlphaGo（Silver等，2016）和AlphaGo Zero（Silver等，2017）。在本文中，我们将强化学习作为实现o1的核心。在我们的路线图中，如图1所示，包含四个关键组件：策略初始化、奖励设计、搜索和学习。我们认为这四个部分是构建像o1这样具有强大推理能力的大规模语言模型的关键。如图2所示，我们的路线图从策略初始化开始。在大规模语言模型的上下文中，策略（π(a|s)）通常指的是基于给定上下文（状态）生成下一个令牌/步骤/响应（动作）的概率分布。策略初始化为大规模语言模型带来类人推理行为，如任务组合、自我评估和自我纠正。接下来，我们进入奖励设计，旨在为搜索和学习提供指导信号。奖励设计可以通过奖励塑造或奖励建模从环境中获得奖励信号，也可以从偏好数据中学习奖励模型。策略初始化和奖励设计为搜索和学习做准备。搜索在训练和测试阶段生成高质量解决方案中起着重要作用，更多的计算可以产生更好的解决方案。学习利用搜索生成的数据来改进策略。学习所使用的数据来源于大规模语言模型与环境的互动，而非由人工专家手工整理的数据，因此消除了昂贵的数据标注需求，并使得实现超人类性能成为可能。

策略初始化

使用强化学习从头开始训练一个大规模语言模型是极具挑战性的，因为它有着庞大的动作空间。幸运的是，我们可以利用大量的互联网数据来预训练语言模型，建立一个强大的初始策略模型，能够生成流畅的语言输出。此外，提示工程和监督微调有助于模型获取类人推理行为，使其能够系统地思考并验证自己的结果。这些方法使模型能够全面探索其解空间，从而提升问题解决能力。

奖励设计

搜索和学习都需要奖励信号来指导策略改进。动作的粒度不同，每个粒度级别对应着不同粒度的奖励信号，这可以进一步探索。此外，这些信号在许多环境中通常是稀疏的，甚至是不存在的。为了将稀疏的结果奖励转化为密集的过程奖励，有一些奖励塑造方法（Ng等，1999）。对于奖励信号不可用的环境，如故事写作任务，我们可以通过偏好数据（Bai等，2022a）或专家数据（Ng & Russell，2000）学习奖励模型。奖励模型的构建进一步发展为构建世界模型（Dawid & LeCun，2023）。

搜索

搜索在训练和测试阶段都扮演着至关重要的角色。训练阶段的搜索是指通过搜索过程生成训练数据。与简单采样相比，使用搜索生成训练数据的优势在于搜索能够产生更好的行动或解决方案——即更高质量的训练数据——从而提升学习效果。在推理阶段，搜索继续在改善模型的次优策略中发挥重要作用。例如，AlphaGo（Wan等，2024）在测试阶段使用蒙特卡罗树搜索（MCTS）来提高其性能。然而，扩展测试时的搜索可能会由于分布变化而导致逆向扩展：策略、奖励和价值模型是在一个分布上训练的，但却在另一个分布上进行评估（Gao等，2023）。

学习

从人类专家数据中学习需要昂贵的数据标注。相比之下，强化学习通过与环境的互动进行学习，从而消除了昂贵的数据标注需求，并提供了实现超人类性能的潜力。在这个路线图中，强化学习通过搜索生成的数据进行学习，采用策略梯度或行为克隆方法。策略梯度方法的数据利用率较高，因为它们利用正向和负向解决方案，而行为克隆在简单性和内存效率方面具有优势。搜索与学习之间迭代互动的一个显著例子是AlphaGo Zero（Silver等，2017），它将蒙特卡罗树搜索（MCTS）（Metropolis & Ulam，1949）作为搜索算法，与行为克隆作为学习方法结合，最终在围棋比赛中取得了超人类表现。

我们将详细探讨策略初始化（第3节）、奖励设计（第4节）、搜索（第5节）和学习（第6节）的潜在实现。此外，我们还回顾了现有的开源o1项目，展示了它们如何作为我们框架的组成部分或特定实例（第7节）。最后，我们讨论了o1的未来发展趋势和相关挑战（第8节）。

2 背景

由于本路线图是从强化学习的角度设计的，因此本节将介绍强化学习的背景及其与大规模语言模型（LLM）的关系。与其他学习范式不同，强化学习通过与环境的交互进行学习，而不是从静态的训练数据集中进行学习。在强化学习中，智能体通过探索环境并从中获得奖励来进行学习。图3展示了强化学习中智能体与环境之间的交互，特别是在大规模语言模型（LLM）中的应用。

智能体（Agent）

智能体是与环境交互的实体，它根据其策略做出决策。形式上，策略 π 是一个从状态到动作的映射。它通常表示为给定状态 s 的动作概率分布（π(a|s)），智能体根据这些概率选择动作。在大规模语言模型的上下文中，智能体指的是LLM本身，它的策略指定了基于当前状态，生成令牌级、步骤级或解答级动作的概率分布。状态 st 由模型在时间 t 时刻接收到的输入组成，包括用户输入和模型之前的输出。模型采取的行动会根据问题的不同而有所不同，可能是生成一个单一的令牌、完成一个步骤，或者提供一个完整的解决方案。

环境（Environment）

环境指的是智能体之外的系统或世界。它对智能体的动作做出反应，并通过下一个状态 st+1 和奖励 r(st, at)提供反馈。环境反馈可以分为确定性反馈和随机性反馈。随机性反馈的特点是存在过渡分布 p(st+1, rt+1|st, at)，例如在对话模型中，用户的回应本质上是不可预测的。另一方面，确定性反馈没有随机性，生成一个固定的下一个状态 st+1 和奖励 r(st, at)。例如，当一个LLM解决数学问题时，状态的转移是确定性的，其中当前状态 st 和动作 at 被结合起来生成下一个状态 st+1。

3 策略初始化

在强化学习中，策略定义了智能体如何根据环境状态选择动作。如第2节所讨论的，大规模语言模型（LLMs）在三个粒度级别上执行动作：解答级、步骤级和令牌级。解答级动作代表最粗粒度的动作，将整个解答视为一个单一的动作。步骤级动作在中间粒度上操作，其中每个独立步骤作为离散的动作。令牌级动作提供最细粒度的操作，将每个单独的令牌视为一个动作。以令牌级动作为例，动作空间包含来自词汇表的成千上万个令牌，因此建立一个良好的初始化策略对于模型性能的有效性至关重要（Brown等，2020）。

如图4所示，LLMs的初始化过程主要包括两个阶段：预训练和指令微调。在预训练阶段，模型通过在大规模网络语料库上进行自监督学习来发展基础的语言理解能力（Sun等，2024d；Weber等，2024；Liu等，2024f），并遵循计算资源与性能之间已知的幂律关系（Kaplan等，2020；Hoffmann等，2022）。随后，指令微调将LLMs从简单的下一个令牌预测转变为生成符合人类意图的响应（Wei等，2022a；Chung等，2024）。对于像o1这样的模型，结合类人推理行为是至关重要的，它能够使模型更深入地探索解答空间。我们总结了通过提示或通过专家轨迹蒸馏从LLMs中激活的六个关键行为。

4 奖励设计

在强化学习中，智能体通过从环境中接收奖励信号来获得反馈，并通过改进策略来最大化长期奖励。奖励函数，记作 r(st, at)，表示智能体在时间步 t 的状态 st 下采取动作 at 时所获得的奖励。奖励信号在引导训练和推理过程方面至关重要，因为它通过数值评分定义了智能体的期望行为。虽然可以从不同的奖励设计中学习到相同的最优策略（Ng 等，1999），但一个设计良好的奖励信号可以加速学习的收敛过程以及搜索过程的效率。本节概述了当前针对大规模语言模型（LLMs）的奖励设计方法。我们首先比较了结果奖励和过程奖励。接着，我们介绍了专门为 LLM 提出的奖励设计方法。我们还回顾了在强化学习中广泛应用的奖励设计技术，这些方法尚未在 LLM 中得到应用。最后，基于对这些不同方法的比较，我们提供了一些关于 o1 奖励设计的推测性讨论。 5 搜索

对于大规模语言模型（LLMs），在生成过程中进行随机采样已成为提高输出质量的主流方法，其中像核采样（nucleus sampling）等技术是显著的例子（Holtzman 等，2020）。此外，许多研究（Kulal 等，2019；Chen 等，2021）观察到，随着模型样本数量的增加，pass@k指标不断提高。Brown 等（2024）显示，即使是小型模型也能通过利用搜索超过大型模型的性能。这表明，语言模型通过在推理过程中更多地进行采样，具有探索正确解决方案的潜力，这需要消耗更多的推理时间计算。搜索是指通过多次尝试或基于某些指导（如奖励或启发式规则）进行战略性探索，从而找到正确解决方案的过程。诸如自一致性（self-consistency）（Wang 等，2023a）和最佳N（Best-of-N, BoN）（Cobbe 等，2021）等推理策略都可以视为搜索方法。对于像 o1 这样的模型，它们被设计用来解决复杂的推理任务，搜索可能在训练和推理过程中都发挥重要作用。在本节中，我们首先分析搜索在 o1 中可能扮演的角色，然后介绍几种有前景的搜索方法的细节，这些方法有可能在构建 o1 类模型时发挥作用。 6 学习我们已经介绍了策略初始化，模型通过从人类专家数据中学习。那么，为什么我们仍然需要强化学习呢？强化学习之所以至关重要，是因为其训练数据是无限的，来源于与环境的互动。相反，人类专家数据是有限且昂贵的。此外，强化学习具有实现超人类表现的潜力，因为它通过试错学习，而不是依赖于人类专家数据。虽然人类专家数据捕捉了人类的行为和知识，强化学习则能发现人类可能无法想到的策略。例如，利用强化学习的AlphaGo（Silver 等，2016）通过发现之前专家未曾知道的新策略，在围棋比赛中击败了世界级人类选手，著名的“37手”就是AlphaGo发现的新策略之一（Silver 等，2016）。强化学习通常使用策略采样轨迹，并根据接收到的奖励来改进策略。在o1的上下文中，我们假设强化学习过程通过搜索算法生成轨迹，而不仅仅依赖于采样。搜索方法的一个优势是它们能够探索比随机采样更优的状态或解决方案。例如，束搜索（beam search）优先选择具有最高期望动作值的动作。因此，搜索技术可以提供比简单采样更高质量的训练数据。在这一假设下，o1的强化学习可能涉及一个搜索和学习的迭代过程。在每次迭代中，学习阶段利用搜索生成的输出作为训练数据来增强策略，而改进后的策略将在下一次迭代中应用于搜索过程。一个典型的搜索与学习迭代的例子是AlphaGo Zero（Silver 等，2017），它使用通过蒙特卡洛树搜索（MCTS）获得的轨迹数据进行策略学习。训练时的搜索不同于测试时的搜索。测试时的搜索输出所有候选解决方案中具有最大奖励或信心的解决方案。但在训练时，所有通过搜索生成的候选解决方案都可以被学习所利用。我们将通过搜索输出的状态-动作对集称为 Dsearch，而搜索中最优解决方案中的状态-动作对集称为 Dexpert。因此，Dexpert 是 Dsearch 的一个子集。我们在图8中可视化了 Dsearch 和 Dexpert 之间的差异。

7 开源 o1 项目

尽管 o1 尚未发布技术报告，但学术界已经公开了多个 o1 的开源实现。所有这些实现都可以视为本文介绍的 o1 框架的组成部分或特定情况。在表4中，我们总结了这些开源项目在政策初始化、奖励设计、搜索和学习方面采用的方法。此外，还有一些来自工业界的类似 o1 的模型，例如 k0-math、skywork-o1（o1 Team，2024）、Deepseek-R1（Shao 等，2024）、QwQ（Team，2024）和 InternThinker（Cai 等，2024）。我们不讨论这些模型，因为它们尚未公开其技术。