迈向大型推理模型：基于大型语言模型的强化推理综述

语言长期以来被认为是人类推理的基本工具。大型语言模型（LLM）的突破激发了大量研究兴趣，推动了利用这些模型解决复杂推理任务的探索。研究人员通过引入“思维”这一概念——即一系列代表推理过程中的中间步骤的标记——超越了简单的自回归标记生成。这一创新范式使LLMs能够模仿复杂的人类推理过程，如树搜索和反思性思维。近年来，学习推理的趋势逐渐兴起，强化学习（RL）被应用于训练LLMs掌握推理过程。这种方法通过试错搜索算法自动生成高质量的推理轨迹，大大扩展了LLMs的推理能力，通过提供大量的训练数据。此外，近期研究表明，鼓励LLMs在推理过程中使用更多标记（即“思考”）进行测试时推理，能够显著提升推理准确性。因此，训练时和测试时的规模化结合展现了一个新的研究前沿——迈向大型推理模型的路径。OpenAI的o1系列的推出标志着这一研究方向的重要里程碑。在本综述中，我们对LLM推理的最新进展进行了全面回顾。首先，我们介绍LLM的基础背景，然后探讨推动大型推理模型发展的关键技术组成部分，重点讨论自动化数据构建、学习推理技术和测试时规模化。我们还分析了当前一些流行的开源项目，致力于构建大型推理模型，并最终总结了当前面临的挑战和未来的研究方向。

1 引言

“如果语言存在严重缺失，思维也将会严重缺失。” — 诺姆·乔姆斯基得益于深度学习的进展和大规模数据集的可用性，大型语言模型（LLMs）已成为迈向人工通用智能（AGI）的转型性范式。这些庞大的AI模型通常采用Transformer架构，并在大规模文本语料库上通过下一个标记预测任务进行预训练 [191]。神经网络规模法则表明，随着模型规模和训练数据的增加，它们的性能显著提升 [59]。更重要的是，LLMs还解锁了许多小模型所没有的显著突现能力 [159]，例如上下文学习 [33]、角色扮演 [124] 和类比推理 [157]。这些能力使得LLMs超越了自然语言处理问题，能够处理更广泛的任务，如代码生成 [41]、机器人控制 [3] 和自主代理 [28]。

在这些能力中，人类般的推理能力受到了学术界和工业界的广泛关注，因为它展示了LLMs通过抽象和逻辑推理在复杂现实问题中进行推广的巨大潜力。该领域的一项重要突破是“链式思维”提示技术 [160]，该技术能够在测试时通过一步步的推理过程引导LLMs进行类人推理，而无需额外的训练。这些直观的提示技术已被证明能够显著提高预训练LLMs的推理准确性，并推动了“树状思维” [172] 等更高级提示技术的发展。这些方法引入了“思维”这一概念，将其视为表示人类推理过程中的中间步骤的标记序列。通过引入这些中间步骤，LLMs的推理超越了简单的自回归标记生成，能够实现更复杂的认知架构，如树搜索 [172] 和反思性推理 [180]。

近年来，学习推理成为一个重要的研究趋势 [103]，其目标是训练LLMs掌握类人推理过程。该研究方向的一个关键挑战是训练数据的匮乏。人工标注通常成本高昂，特别是对于已被证明在监督LLM推理中有效的逐步推理轨迹 [75]。为了解决这一问题，近期的研究已经从人工标注转向LLM驱动的搜索算法。这些方法利用外部验证推理问题，借助试错搜索算法自动生成准确的推理轨迹 [85]。更重要的是，研究人员提出了在这些推理轨迹上训练过程奖励模型（PRMs） [183]。PRMs可以提供密集的逐步奖励，促进LLM推理的强化学习。这些方法的结合减少了对人工标注数据的依赖，并创造了一个“强化循环”，有效地整合了“搜索”和“学习”——这两种方法可以无限扩展，正如理查德·萨顿所预测的那样 [139]。因此，这一新兴范式通过增加训练时的计算资源，实现了LLM推理能力的扩展，为更高级的推理模型铺平了道路。

此外，近期的研究表明，增加测试时计算资源也可以提高LLM的推理准确性。具体而言，PRMs可以引导LLMs评估并搜索中间“思维”过程 [134]，鼓励LLMs在测试时计算过程中生成更为谨慎的推理步骤，从而提升推理准确性。这一方法促成了测试时扩展法则，该法则预测，在测试时投入更多标记进行深思熟虑的推理可以提高准确性 [103]。因此，基于强化学习的训练时扩展和基于搜索的测试时扩展相结合，展示了一个有前景的研究方向，旨在充分释放LLMs的推理能力，即迈向大型推理模型的路径。OpenAI的o1系列 [194] 是这一研究方向的一个重要里程碑，展示了该方法的有效性，并呼应了OpenAI在迈向AGI的五步路线图中，从对话AI（一级）到更强大推理AI（二级）的过渡愿景 [36]。一些开源项目，如OpenR [145]、LLaMABerry [185] 和Journey Learning [110]，致力于复现OpenAI的o1强大推理能力，为大型推理模型的开发提供了宝贵的见解。

在本综述中，我们提供了关于向大型推理模型发展的最新研究工作的全面回顾。第二节简要介绍LLM推理的背景。接下来的三节深入探讨推动大型推理模型发展的关键技术组成部分。具体而言，第三节聚焦于训练数据构建，强调从人工标注到LLM驱动自动化搜索的转变。第四节回顾了对扩展LLM推理能力至关重要的强化学习方法，重点讨论训练时计算资源的增加；第五节则讨论了测试时扩展，特别是基于PRM引导的搜索。在第六节中，我们分析了OpenAI的o1系列及其他开源项目，探索大型推理模型的发展路径。第七节总结了额外的测试时增强技术，第八节回顾了推理基准测试。最后，我们在综述的结尾讨论了当前面临的开放问题和未来的研究方向。

2. 背景

2.1 预训练

作为训练LLMs的基础阶段，有效的预训练对于开发推理能力至关重要。在讨论LLMs推理的预训练之前，我们首先概述一般LLM预训练的基本过程。通过预训练，LLMs不仅获得了核心的语言知识，还掌握了多样化的世界知识，为高级能力的涌现和有效的价值对齐奠定了坚实的基础。通常，LLM预训练依赖于高质量的文本语料库，包括大量的网络内容、书籍、代码和其他类型的数据。利用这些丰富的文本语料库，LLMs基于Transformer架构，通过下一个词预测任务进行训练。预训练后，LLMs通常表现出卓越的上下文学习能力，能够生成连贯的文本，并利用其庞大的知识库回答各种问题。值得注意的是，预训练阶段在培养LLMs的推理能力方面发挥了关键作用。例如，研究表明，富含代码和数学内容的数据集是开发强大推理技能的关键基础。基于这一观察，新开发的LLMs开始引入精心设计的合成数据，以增强LLMs的推理能力。在预训练过程中，一个关键的挑战在于平衡代码和数学数据与一般文本语料库的比例，以保持强大的语言能力，同时释放LLMs的推理潜力。

2.2 微调

虽然预训练使LLMs通过上下文学习展现出推理能力，但微调技术被广泛用于实现LLMs的零样本和改进的推理能力。在这里，我们首先概述基本的微调过程，然后探讨其在增强推理能力方面的潜力。如文献[104]所述，预训练阶段结束后，LLMs进入监督微调阶段（SFT），也称为指令微调阶段。这一阶段的主要目标是优化模型的输出风格，确保其响应符合人类需求和现实应用。这是通过使用反映广泛日常人类互动的多样化指令数据集进行训练来实现的，这些数据集通常通过广泛且精心策划的人工标注和精炼创建。随着ChatGPT的出现，新的方法涌现出来，用于生成多样化的指令数据集。这些方法包括直接从强大的LLMs中提取数据的技术，以及从现有语料库中自动构建大规模数据集的自动化方法。使用这些精心设计的指令微调数据集，微调过程继续使用下一个词预测目标，类似于预训练。然而，与预训练不同的是，微调特别计算答案的损失，而通常忽略问题的损失。此外，结合包含思维链（CoT）推理和数学问题解决示例的数据集已被证明能够显著增强LLMs的推理能力，这使其成为一个活跃的研究领域。遵循一般实践，大多数当前方法利用从高级大型推理模型中提取的数据进行微调，以增强LLMs的推理能力，从而获得最终的大型推理模型。

2.3 对齐

仅仅依赖从高级大型推理模型中直接提取数据限制了新LLMs的潜力。一个更有前景的方法是使用强化学习进行数据构建和模型训练，这正好对应于一般LLM训练中的最终对齐阶段。在LLM的一般训练中，对齐阶段通常涉及使用人类反馈的强化学习（RLHF）等方法，以引导模型生成符合有用、无害和诚实标准的内容。这一阶段的目标是增强LLMs在现实中的安全性和可控性。与之前的SFT阶段相比，这一阶段通常包含大量精心策划的人工标注的排名数据，以准确反映人类偏好。这些数据不仅包括正确的示范，还包括应避免的不良案例。标准的RLHF通常涉及一个SFT模型、一个奖励模型和一个对齐模型，这些模型通过PPO等方法进行迭代优化。由于标准RLHF的高数据需求和训练成本，提出了直接偏好优化（DPO）等方法，以减少对显式奖励模型的依赖。在DPO中，偏好损失被定义为策略的函数，以直接指导模型优化。鉴于推理问题的多步骤性和复杂性，基于对齐的后训练已成为激发LLMs推理能力的最终且最关键的一步。通过仔细分解推理过程并逐步将信号反馈给模型，基于强化学习和偏好学习的各种自训练方法取得了显著的成功。

2.4 提示LLMs进行高级推理

类人推理是LLMs在具有足够大模型参数时涌现的最重要能力之一。虽然零样本推理在某些任务中可能仍然不可靠，但研究人员已经发现了各种提示技术来增强这些能力。这些技术可以大致分为三种主要方法：逐步推理、多路径探索和基于分解的方法。逐步推理方法以思维链提示为例，展示了明确展示中间推理步骤如何显著提高问题解决能力。即使是简单的提示，如“让我们一步一步地思考”，也能有效地引导推理过程。这种方法通过自我一致性（Self-Consistency）进一步改进，生成多个推理路径以得出更可靠的结论，以及自动生成有效推理链的Auto-CoT。多路径探索方法超越了线性推理，同时考虑多个潜在的解决方案路径。思维树将替代推理路径组织成树结构，从而系统地探索不同的解决方案策略。思维图进一步将其推广到图结构，允许更灵活的推理模式和回溯能力。ReAct通过将推理与行动步骤交织在一起，丰富了这一范式，从而能够更动态地与外部环境互动。对于复杂问题，基于分解的方法特别有效。Least-to-Most Prompting和Algorithm of Thoughts系统地分解复杂问题为可管理的组件，而Plan-and-Solve则为解决这些子问题提供了战略指导。这些方法在处理需要多个步骤或不同层次分析的任务时尤其有价值。这些广泛的推理能力通过结构化提示策略得到增强，在处理需要仔细分析和系统思考的任务时特别有效，使LLMs能够完成各种复杂的社会科学相关任务。这些方法的成功表明，尽管LLMs具备固有的推理能力，但通过提示过程中的仔细引导和结构，可以充分释放其潜力。 2.5 代理工作流在LLMs的指令遵循和上下文学习能力之上，研究人员开始设计代理工作流，以编程LLMs的“思维模式”。这种代理工作流允许研究人员在不进行额外训练的情况下增强LLMs的推理能力，但通常需要更多的测试时计算。上下文学习是通过简单地提供一些上下文示范来提高LLMs在特定任务上的表现的能力，使LLMs能够高效地推广到未见问题，而无需进行计算昂贵的训练。尽管这种能力的起源仍然是一个有争议的话题，但最近的研究表明，上下文学习通过允许LLMs捕捉标签空间、输入文本的分布和答案的期望格式来提高其表现。这些理想特性使研究人员能够将通用LLMs适应于各种任务场景，例如通过上下文角色扮演模拟某些人口群体的视角。最近的研究表明，有效的代理工作流可以大大提高LLMs模拟人类行为、人机交互和协作任务解决的能力。通过代理工作流编程LLMs的能力为提高LLMs的推理能力奠定了复杂认知架构的基础。

3. 数据构建：从人工标注到LLM自动化

创建大规模、高质量的推理数据集对于增强LLMs的推理能力至关重要。然而，由于成本高昂，这一任务面临重大挑战。如图1所示，人工标注被广泛认为是高质量的，但其成本高昂且难以扩展。相反，使用LLMs自动化标注过程提供了一种更具成本效益的替代方案，但面临验证有限的挑战，特别是对于逐步推理过程。在本节中，我们回顾了该领域的最新研究进展（总结在表1中），强调了从人工标注到LLM自动化的转变。 3.1 人工标注人工标注在构建LLMs数据集中的作用是不可或缺的。人工标注者以其细致、耐心和精确性为特征，同时也具备适应新场景和处理模糊数据的能力。Zhou等人[195]证明，即使使用最少的人工标注数据，模型也能实现强大的性能，突出了精心策划的标注在模型有效性中的关键作用。人工标注数据在增强大型语言模型的推理能力方面发挥了关键作用。在人类反馈强化学习（RLHF）的背景下，来自人工标注者的偏好数据使LLMs能够与复杂的人类价值观和伦理考虑保持一致。这种通用的标注方法有助于针对特定任务微调模型。基于这一基础，Lightman等人[75]展示了使用人工标注者评估数学推理过程中每一步推理质量的有效性，显著提高了LLM推理的准确性。这突显了人工标注如何弥合一般训练数据与领域特定挑战（如复杂推理任务）之间的差距。增强LLMs的推理能力需要过程监督，即人工标注者指导推理过程的每一步[75]。然而，这种监督需要大量的人工标注数据，使其资源密集且不可持续。鉴于LLM训练通常需要TB级的数据，其数量对模型性能至关重要，完全通过手动标注构建数据集变得越来越不切实际。这突显了在不依赖人工标注的情况下改进推理的替代方法的需求。一种有前景的方法是人与LLMs协作进行标注，利用LLMs加速标注过程，同时保持人工生成标注的高质量。具体来说，标注过程可以分为两个阶段：预标注阶段和精炼阶段。在预标注阶段，LLMs可以用于执行初始标注，利用少量手动提供的示例进行快速高效的设置[42, 61]。在精炼阶段，人工标注者可以评估LLM生成标注的质量，并专注于纠正质量较差的标注子集[61, 152, 96, 42]。为了实现可扩展的标注过程，最近的工作越来越关注如何在确保数据质量的同时最大化自动化，从而在不影响标注准确性的情况下减少人工参与。

3.2 LLM自动化结果标注

数据标注是一项具有挑战性且资源密集的任务，特别是在需要复杂操作（如过滤、识别、组织和重构文本数据）的场景中。这些任务通常繁琐、耗时，并且需要大量的人力，使其成为大规模数据构建工作中的昂贵瓶颈[142, 31]。为了解决这些挑战，利用LLMs进行数据标注提供了一种成本效益高且高效的替代方案。随着上下文窗口长度超过100k标记，LLMs可以轻松处理长文本和大规模结构化数据[2]，以显著效率处理数据标注的复杂需求。它们强大的指令遵循能力[187]使其能够灵活适应多样化和复杂的标注场景，同时达到与人工标注者相当的质量水平。通过自动化这些高要求的任务，LLMs显著减少了对人力的依赖，简化了标注过程，并提高了整体生产力[181]。 LLMs能够处理各种自动化标注任务，从简单的问答提取[106]到包含额外目标信息[161]。在没有人工示范的情况下，LLMs依靠其强大的推理和上下文学习能力独立应对更复杂的标注需求。例如，Schick等人[120]展示了如何使用LLMs构建工具使用的数据集。对于每个可能需要API调用的候选位置，LLM能够理解周围上下文中的逻辑关系，生成相关问题，并确定适当的工具API来解决问题。当有人工示范时，LLMs可以通过模仿这些示例中的模式和推理策略进一步提高其表现。对于复杂任务，人工示范提供了高质量的轨迹——思想、观察或行动的序列——指导LLMs复制人类决策过程。现有研究表明，即使是零样本LLMs，在基于人工示范的任务无关提示下，也能有效地执行标注任务[65]。此外，对于涉及高度复杂和细微轨迹的任务，LLMs可以结合专门的代理，如计划代理、工具代理和反思代理，以解决标注过程的不同方面，从而进一步增强其与类人推理和行为对齐的能力。这些多样化的能力自然延伸到推理结果标注任务，LLMs不仅推断潜在逻辑结构，还系统地记录中间推理步骤及其相关结论。这使得能够创建不仅捕捉最终结果，还捕捉导致这些结果的完整推理过程的标注数据集，为下游应用提供更丰富的见解。除了基于人工示范的标注外，LLMs可以通过带有反馈的搜索独立增强其标注能力，这一过程涉及通过从动态环境中学习进行迭代精炼。失败的数据点可以被视为一种经典的反馈形式，作为模型识别弱点并设计有针对性的调整的宝贵反馈。通过自我纠正错误样本并生成精炼的训练数据，LLMs参与了一个自我改进的循环，增强了其理解和推理能力[70]。此外，LLMs可以系统地分析其错误的原因，提取关键见解并将其编码为自学习知识，以指导未来的推理任务[72]。这种反馈驱动的方法还可以涉及基于相似性将失败的轨迹与成功的轨迹配对，从而通过对比学习策略精炼模型的参数。通过这种迭代搜索和精炼机制，LLMs不仅解决了错误，还开发了更强大的推理能力，使其能够在复杂任务中实现更深的泛化和适应性[135]。

3.3 LLM自动化过程标注在复杂的推理任务中，模型输出的每一步都可能显著影响最终结果，因此必须将中间决策标记为“正确”、“错误”或分配中间奖励，即过程标注。然而，手动标注这些步骤既昂贵又耗时。例如，Lightman等人[75]投入了大量人工努力来生成大规模过程标注数据集，即PRM800K，该数据集满足了训练有效过程奖励模型（PRM）的要求，并大大增强了LLMs的推理能力。因此，自动化方法越来越需要高效的过程标注，以确保可扩展性和成本效益。最初的自动化方法雇佣外部更强的LLMs来标注由较小LLMs生成的中间过程。此外，基于蒙特卡罗的方法减少了对外部更强LLMs的依赖，可以使用较弱的LLMs完成数据标注，从而通过自我强化的方式训练更强的LLMs。使用更强的LLM进行标注：作为一种直接的自动化标注方法，Luo等人[84]设计利用更强大的外部模型来标注生成模型推理过程的中间结果。该方法不依赖人工标注，而是使用预训练的高性能模型（如GPT系列）来评估每个生成的步骤。通过利用更强外部模型的能力，这种方法提高了标注过程的准确性和可扩展性，使其更适合大规模任务。然而，这种方法的主要限制在于其对高度能力的外部模型的依赖，这意味着标注过程的性能最终受限于所使用的外部模型的能力。通过蒙特卡罗模拟进行标注：为了减少对强大外部模型的依赖，Wang等人[148]和Wang等人[156]提出了一种改进方法，避免直接评分中间步骤。相反，他们的方法使用外部模型从给定的中间输出继续推理几步，并随机重复此模拟过程多次。然后基于这些扩展推理的平均结果评估中间步骤的质量。这种蒙特卡罗方法在数学问题解决和代码生成等任务中显示出有前景的结果。通过树搜索模拟进行标注：使用多步蒙特卡罗模拟与外部模型来评估中间步骤质量的方法已成为自动化过程标注中最广泛使用的方法之一。为了进一步提高该方法的效率，Luo等人[85]提出了一种改进方法，用蒙特卡罗树搜索（MCTS）策略取代重复的蒙特卡罗模拟。在这种改进方法中，使用MCTS从中间步骤生成多个代表最终推理结果的叶节点。然后基于这些叶节点的平均结果评估中间步骤的质量。与随机重复推理相比，MCTS利用树搜索提高推理质量，同时允许叶节点共享高质量的父节点，减少计算开销并提高效率。该方法在数学问题解决中表现出优越的性能，超越了人工标注。在基于MCTS的模拟基础上更进一步，Zhang等人[183]在过程标注中引入了自我精炼机制。他们利用获得的过程标注训练过程奖励函数（PRM），进而提高大型语言模型（LLM）的性能。精炼后的LLM随后用于重复基于MCTS的模拟，生成更高质量的标注。这种涉及改进循环的迭代过程，通过迭代增强逐步提高了过程标注的质量。该方法在多个任务中表现出色，包括数学问题解决、问答和多领域知识推理，展示了其通过迭代增强不断精炼和提高标注质量的有效性。

4. 学习推理：从监督到强化微调

虽然预训练模型在各种任务中表现出色，但它们通常在复杂推理和与人类期望对齐方面表现不佳。微调对于解决这些限制至关重要，可以优化模型在特定任务上的表现并增强其推理能力。最初，使用监督微调（SFT），模型从标注数据集中学习任务特定的模式。然而，随着推理挑战的增加，强化学习（RL）和直接偏好优化（DPO）等方法提供了更有效的方法，使用奖励模型更高效地将模型的输出与类人推理对齐，促进更连贯、负责任和上下文感知的输出。

4.1 优化预训练LLM：监督微调监督微调（SFT）是一种学习技术，它使用标注数据优化预训练模型在特定任务或领域的能力，同时保留模型对预训练知识的理解。虽然预训练使模型能够从大量非结构化数据中学习广泛的通用特征，但微调通过将模型暴露于较小的、任务特定的数据集（具有清晰的输入-输出映射）来专门化模型。 SFT是提高LLMs推理能力的关键步骤，通过将其从通用系统适应为领域特定工具，使其能够应用于下游任务。例如，像GPT、BERT和T5这样的LLMs在大量文本数据上使用自监督学习进行预训练，赋予它们广泛的语言理解和生成能力。然而，它们的输出并不总是与任务特定要求对齐。如果没有微调，LLMs在某些推理任务上往往表现不佳，例如对象计数、卫星理解和工程问题回答。通过SFT，我们可以基于标注的任务特定数据集优化模型的输出，从而部分解决这些挑战。然而，直接应用SFT可能无法充分探索模型在所需领域中的推理能力，特别是在需要更复杂决策或多步问题解决的任务中。CoT技术的引入[160]彻底改变了SFT过程，通过明确训练模型在得出答案之前生成中间推理步骤。通过基于CoT的SFT，LLMs被鼓励显式生成中间推理步骤，从而增强其推理能力，以应对需要更结构化和有组织思维的任务。例如，ReasonBert[29]表明，使用推理链微调模型显著提高了其在数学应用题和逻辑推理任务中的表现，通过结合逐步推理过程。另一项关键研究[80]探讨了使用推理微调模型如何提高其可解释性，并通过生成更透明的逐步思维过程减少复杂决策场景中的错误。通过基于CoT的微调，模型不仅提高了最终答案的准确性，还增强了其“思考”问题的能力，提供了对模型推理过程的更清晰见解。尽管SFT方法多样且表现优异，但它也存在一些局限性。首先，SFT严重依赖高质量的标注数据集，这些数据集的策划成本高昂且耗时，特别是对于需要专家标注的利基领域或任务。其次，SFT可能导致灾难性遗忘，即模型在微调过程中失去一些预训练的通用知识，降低了其在微调领域之外的推理任务的实用性。最后，即使采用参数高效的方法，大规模模型的微调计算成本仍然很高，对资源有限的组织构成了挑战。解决这些局限性需要仔细的数据集策划、正则化技术以及探索替代方法，如提示调优或多任务微调，以平衡任务专业化和泛化。

4.2 优化预训练LLM：强化学习由于SFT对昂贵、高质量的标注数据集的高度依赖以及高计算成本，强化学习已成为训练模型掌握推理过程的有力替代框架。与监督学习不同，RL使模型能够通过试错奖励信号学习，发现实现特定目标的最佳策略。如图2（a）所示，模型根据其当前状态采取行动，并以奖励信号的形式接收反馈。这种反馈指导模型随时间更新其参数，优化累积奖励。经典强化学习：RL已成为LLMs发展的关键步骤。在RL框架中，LLMs的参数根据其行动的奖励进行更新。具体来说，价值函数或Q函数根据奖励模型的反馈进行更新，将行动结果的功劳完全归因于其即时效果。这种方法简化了框架，使其在概念上更直接，同时增强了模型有效响应的能力。目前，两种关键方法主导了LLMs的RL训练：人类反馈强化学习（RLHF）和AI反馈强化学习（RLAIF）。 Ouyang等人[104]使用RLHF将LLMs与人类意图对齐。此外，通过在人类标注的示范和排名比较上微调GPT-3，他们开发了一个预测人类标注者偏好的奖励模型。它有效地将训练后的LLMs与人类偏好对齐，尽管规模较小，但在推理和指令遵循方面优于GPT-3。Bai等人[8]也利用RLHF创建了有用且无害的语言模型。遵循有用、诚实和无害的框架，他们对基础模型进行微调，使用拒绝采样训练偏好模型，并通过人类反馈迭代精炼。这一过程产生了在NLP任务中表现出色并展现出强大伦理推理能力的AI助手。为了减少对大规模人类标注数据集的依赖，Bai等人[9]提出了Constitutional AI，这是一个使用原则而非昂贵的人类反馈训练AI助手成为有用和无害的框架。该过程包括两个阶段：监督学习和RLAIF。在监督阶段，模型基于宪法原则批评和精炼其输出，创建微调数据集。在RLAIF阶段，模型生成自我评估以指导训练，绕过对人类标注数据的有害性需求。Ramamurthy等人[114]专注于使用RL将LLMs与人类偏好对齐。他们引入了RL4LMs，一个用于基于RL的微调的库，以及GRUE基准，该基准使用反映人类偏好的奖励函数评估模型。为了解决训练挑战，他们提出了自然语言策略优化算法，通过约束标记采样稳定训练。这项工作为将RL集成到LLM微调中以改进对齐和性能奠定了坚实基础。直接偏好优化：经典RL方法依赖训练奖励模型以根据人类偏好对输出进行评分。而DPO通过直接利用偏好数据简化了这一过程，无需显式奖励模型。DPO不是优化复杂的奖励函数，而是使用成对偏好比较，即指示人类偏好两个输出中哪一个的数据。这种直接方法简化了学习流程，同时保留了基于RL方法对齐的好处，通常更简单且更有效。Rafailov等人[112]引入了DPO，这是一个用于对齐语言模型的新框架，它通过简单的分类损失直接优化策略以与人类偏好对齐。通过参数化奖励模型以推导出封闭形式的最优策略，DPO消除了微调过程中采样和广泛超参数调优的需求。实验表明，DPO在情感控制、摘要和对话生成等任务中匹配或超越了RLHF方法（如PPO），同时更稳定、计算效率更高，并且在生成推理输出方面更有效。Amini等人[4]提出了带偏移的直接偏好优化（ODPO），这是DPO的扩展，用于将语言模型与人类偏好对齐。ODPO通过考虑响应之间的偏好程度而不是将所有偏好对视为相等来改进DPO。它在偏好差异中引入了偏移，与质量差异成比例。这种方法不仅改进了对齐，还增强了模型的推理能力，特别是在情感控制、毒性减少和摘要等任务中。实验表明，ODPO在偏好数据有限的情况下实现了更好的对齐和负责任的行为。总之，RL和DPO方法为培养LLMs的推理能力提供了一种直接且有效的方法。通过专注于每次行动后的即时奖励，这些方法还将模型与人类偏好对齐。对短期反馈的强调简化了学习过程，避免了跨长序列的信用分配的复杂性。这种简化的方法特别适合实时应用和需要清晰、简洁推理的任务，最终增强了LLMs提供连贯和伦理结果的能力。 4.3 使用结果奖励模型增强多步推理对于复杂的推理任务，如数学问题解决，LLMs需要执行多步推理（如思维链）以最终得出准确的解决方案。在这些任务中，奖励反馈通常只有在所有推理步骤完成并得出最终解决方案后才能获得。如图2（b）所示，这被称为结果奖励模型（ORM）。在这种情况下，提高LLMs推理能力的关键在于根据结果奖励区分中间推理步骤的正确性和重要性。经典强化学习：ReFT[143]将PPO[121]方法从RLHF[104]应用于推理任务。基于结果奖励模型，PPO中的价值函数能够推断中间推理步骤的贡献。与监督微调相比，ReFT能够学习更多样化的推理路径，在推理任务中表现出更强的泛化能力。然而，VinePPO[60]发现，使用ORM训练的PPO中的价值网络在识别中间推理步骤的价值时表现出显著偏差，这是RL中一个众所周知的挑战，称为信用分配问题。为了解决这个问题，VinePPO放弃了PPO中的价值网络，转而使用蒙特卡罗采样方法计算价值函数的无偏估计。实验结果表明，VinePPO在数学推理任务中始终优于典型的PPO。关键计划步骤学习（CPL）是一种旨在通过在高层次抽象计划中搜索来增强LLMs在推理任务中泛化能力的方法[150]。CPL使用蒙特卡罗树搜索（MCTS）探索多步推理任务中的不同计划步骤，并利用Step-APO学习关键计划步骤。这种方法使模型能够学习更多样化的推理路径，从而提高在各种任务中的泛化能力。随后，模型迭代训练策略和价值模型以进一步提高性能。在每次迭代中，策略模型生成计划步骤和最终解决方案，而价值模型评估中间步骤的质量。由MCTS生成的训练数据用于更新策略和价值模型。直接偏好优化：在数学推理任务中，直接使用DPO[112]方法进行偏好优化由于偏好数据中存在冗长的推理步骤而效果不佳。Amini等人[4]引入了ODPO，它通过考虑响应之间的偏好程度而不是将所有偏好对视为相等来改进DPO。ODPO在数学推理任务中相比DPO取得了显著改进。总之，基于结果奖励训练的主要挑战在于区分中间推理步骤的正确性和重要性。当前方法主要基于蒙特卡罗采样或蒙特卡罗树搜索，在估计这些中间步骤的重要性方面具有优势，尽管搜索过程中的计算成本仍然很高。现有工作主要集中在数学或其他推理问题上，这些问题的最终解决方案可以轻松验证。这些方法可以扩展到更广泛的推理任务，包括那些解决方案难以验证的任务。一种潜在的方法是学习基于人工标注数据的奖励模型，并使用它来判断最终解决方案的质量。基于奖励模型提供的最终分数，可以使用蒙特卡罗采样或搜索技术进一步提高性能。

4.4 使用过程奖励模型增强多步推理

过程奖励模型（PRM）基于强化学习代表了LLM推理的重大进步，强调评估中间步骤而不是仅仅关注最终结果。如图2（c）所示，PRM的奖励分布在每个推理步骤中，而不是集中在最终结果上。通过在整个推理轨迹中提供细致的反馈，PRM使模型能够优化行为，使其更符合人类偏好和复杂任务要求。这种方法对于涉及顺序决策的任务至关重要，其中中间步骤或决策对最终目标具有重要意义。我们探讨PRMs的演变，并强调它们在通过提供复杂任务中的步骤级奖励来改进推理方面的作用。经典强化学习：一系列近期工作将PRMs应用于数学或逻辑推理，因为OpenAI的一项开创性工作[75]证明了过程奖励的重要性。SELF-EXPLORE[55]使用PRMs通过识别和纠正“第一个坑”（即问题解决中的初始错误步骤）来增强数学推理。通过奖励纠正这些错误的步骤，PRMs实现了无需大量人工标注的自监督微调。该模型通过利用步骤级细粒度反馈，在GSM8K和MATH等数学基准上实现了显著的准确性提升。MATH-SHEPHERD[149]引入了一个PRM框架，用于数学推理任务中的逐步验证和强化。通过自动化过程监督（使用MCTS启发的方法），MATH-SHEPHERD消除了对人工标注的需求，同时确保了多步问题解决的高准确性。PRMs用于强化逻辑进展和正确性，从而在GSM8K和MATH等基准上提高了性能。DeepSeekMath通过组相对策略优化（GRPO）[128]集成了PRMs，这是一种优化步骤级奖励的RL算法。PRMs用于增强数学推理和跨领域的推理一致性。通过专注于中间推理步骤，DeepSeekMath在多个基准上实现了最先进的性能，展示了PRMs在数学领域的强大能力。扩展自动化过程验证器引入了过程优势验证器（PAVs），一种PRM变体，用于评估问题解决中的步骤级进展[123]。PAVs使用步骤级监督来提高搜索算法和强化学习的效率和准确性。通过专注于对正确解决方案有意义的进展步骤，PAVs在样本效率、计算效率和推理准确性方面相比结果奖励模型实现了显著提升。这展示了细粒度过程奖励在扩展LLM推理能力中的重要性。交互式过程奖励模型：PRMs还应用于交互任务，如对话和多轮问答。ArCHer采用分层RL方法，使用PRMs训练代理处理多轮、长视野任务[198]。它实现了一个双层系统：高层价值函数评估话语级奖励，而低层PRM优化每轮内的逐标记生成。这种分层结构确保了更有效的信用分配，并允许对语言模型进行细致训练，以处理多轮交互和推理任务。PRMs的使用使ArcPier能够高效扩展，在代理任务中实现了显著的样本效率和性能提升。多轮偏好人类反馈强化学习[126]将PRMs集成到多轮强化学习中，以优化长期目标与人类反馈。多轮偏好优化（MTPO）算法比较整个多轮交互以生成偏好信号，其中PRMs用于分配逐步奖励。这使得LLM代理能够将行为与长期目标对齐，提高动态、多轮任务（如对话和战略决策）的整体性能。直接偏好优化：一些近期研究利用MCTS通过直接偏好优化[165, 17, 183, 16]实现多步推理任务的优化。例如，SVPO[17]使用MCTS自动标注多步推理任务的步骤级偏好。从学习排序的角度，它训练一个显式价值模型以复制隐式奖励模型的行为。此外，SVPO将显式价值模型与DPO集成，其中价值模型不仅帮助策略模型导航更高效的推理路径，还指导偏好学习。然而，这些工作主要集中在首先收集偏好数据或训练奖励模型，然后基于静态数据和预训练奖励模型执行策略优化。Xie等人[165]通过将数据收集和策略偏好优化集成到一个迭代过程中，推进了这些方法。这种方法可以被视为直接偏好优化的在线版本，其中更新后的策略迭代地用于通过MCTS收集偏好。 LLMs多步RL技术的演变反映了从稀疏结果反馈到详细过程导向监督的转变。PRMs现在成为LLM推理能力进步的核心，提供了细致的步骤级奖励，推动了推理任务的显著改进。未来的研究可能会专注于精炼这些模型并扩展其在不同任务领域的适用性。

4.5 强化微调强化微调（RFT）[101]是OpenAI最近提出的一种技术，用于定制针对特定垂直领域的专家LLMs。目前，RFT仍处于研究计划中，技术细节尚未完全公开。现有信息表明，RFT利用用户提供的少量偏好数据以及一个评分模型来评估LLM的输出。该技术能够迭代优化LLM的多步推理能力。因此，RFT技术可以增强LLM在优化领域中通过类似问题推理的策略。评分模型：RFT引入了评分模型的概念来评估LLMs的输出。考虑到强化学习训练通常需要奖励模型提供反馈，评分模型可能类似于奖励模型，将文本输入（如问题和答案）转换为推理质量的标量值。这表明评分模型可能是一个基于用户提供的偏好数据训练的奖励模型，可能作为结果奖励模型或过程奖励模型运行[76]。数据效率：在OpenAI的现场会议中，提到RFT可以在仅有几十个用户偏好数据的情况下在新领域中进行学习。这表明RFT能够基于有限的偏好数据探索多样化的推理路径以解决任务。这种方法展示了极高的样本效率，同时减轻了过拟合的风险[56]。训练稳定性：强化学习训练的稳定性是一个众所周知的难题，对其广泛应用构成了重大挑战。随机种子的变化或某些超参数的调整会极大地影响RL的训练结果。在RFT项目中，OpenAI宣布计划通过API向公众提供该技术，使用户能够使用自己的数据微调领域特定的专家模型。这一声明可能表明RFT已经达到了足够的稳定性，能够可靠地使用RL技术微调语言模型。

5. 测试时扩展：从CoTs到PRM引导的搜索

5.1 通过提示引发深思熟虑的思考除了通过强化学习等技术进行训练时优化外，研究人员发现，测试时提示技术（如思维链和思维树）可以进一步增强LLMs的能力[160, 153]。虽然简单地要求模型直接回答通常会产生次优结果，但在测试时通过明确的推理过程引导它们可以显著提高其性能[62]。这些提示策略在从数学推理到复杂决策任务的各种领域中显示出显著的有效性[173, 196]。结构化提示方法（如ReAct和Least-to-Most Prompting）的出现表明，LLMs可以从明确的思维过程组织中受益，从而产生更可靠和可解释的输出[189]。尽管这些方法通常会增加标记消耗和计算开销，但它们为通过复杂的测试时干预提高LLM性能提供了有前景的方向，而无需依赖模型架构或训练修改[172, 11]。这表明，通过复杂的测试时干预而不是仅仅依赖模型架构或训练修改，可以有效地提高LLM的推理能力和解决方案准确性。 5.2 PRM引导的搜索如前所述，PRM标志着从稀疏结果反馈到详细过程导向监督的重大转变。更重要的是，PRM还可以在测试时阶段使用，从而进一步提升模型的推理能力。OpenAI o1系列模型是PRM高级应用的突出示例。新的测试时扩展定律表明，通过增加测试时计算资源，可以有效地增强推理能力，为LLMs的未来发展提供了明确的方向。我们介绍了一些在推理阶段应用的方法，如图3所示。红色空心圆表示算法在推理阶段探索过程中丢弃的推理路径，绿色空心圆表示在探索过程中采用的推理路径，绿色实心圆表示一旦找到正确答案，推理路径的终点。多数投票：多数投票是从密集测试时计算中生成一个最终答案的最直接策略。在推理过程中，每个推理轨迹都会对给定输入产生一个预测。基本思想是选择大多数推理轨迹一致的答案。然后聚合所有模型的预测，选择出现次数最多的类别（“多数投票”）作为最终输出：f∗=argmaxf∑yIfinal_ans(y)=ff∗=argmaxf∑yIfinal_ans(y)=f，其中II是指示函数，yy是每个评估轨迹。树搜索[15]：树搜索是一种经典算法，通过递归构建搜索树系统地探索不同选择。它通常用于复杂决策问题，如棋盘游戏和规划任务。蒙特卡罗树搜索（MCTS）是最广泛使用的树搜索方法之一。它由四个主要步骤组成：选择、扩展、模拟和回传。通过逐步扩展搜索空间，MCTS逐步改进决策。树搜索已经在一些LLM推理任务中应用，取得了显著成功。例如，思维树框架[172]使LLMs能够考虑多个推理路径，这些路径被结构化为树。它结合了自我评估以做出深思熟虑的决策，确定下一步的最佳行动方案。这种方法显著提高了模型推理的性能。束搜索[133]：束搜索是贪婪搜索的改进版本，通常用于生成任务中以选择最佳输出序列。其主要思想是在每个时间步从所有候选路径中保留得分最高的前K条路径（称为束）以进行进一步扩展。与贪婪搜索不同，束搜索维护多个候选路径，从而扩展搜索空间并提高生成质量。束搜索广泛应用于LLM推理。例如，BART[71]使用束搜索作为其主要推理策略，展示了其在文本生成任务中的卓越效果。前瞻搜索[134]：前瞻搜索是另一种有前景的方法，具有显著增强LLM推理的潜力。它修改了束搜索中每个步骤的评分机制。前瞻搜索不是仅基于当前步骤的得分选择最佳候选，而是通过向前模拟最多kk步来执行前瞻搜索。如果在向前模拟过程中达到解决方案终点，则提前停止。在前瞻搜索过程中，使用预训练且冻结的预测奖励模型对模拟的每个步骤进行评分。基于PRM在kk步模拟中的累积得分，决定保留或丢弃束分支。这种策略通过在每个评估步骤中引入更多上下文来改进决策。与束搜索相比，前瞻搜索增加了探索空间的深度，允许基于更远的模拟决策结果判断当前决策。然而，它也增加了对计算资源的需求，在计算资源有限的情况下可能导致性能下降。

6. 迈向大型推理模型的路径

6.1 OpenAI o1系列的发展 2024年9月，OpenAI发布了o1，这是一个突破性的语言模型，代表了AI推理能力的重大进步，特别是在数学、编码和科学问题解决等复杂任务中表现出色。2024年12月20日，OpenAI开放了o3的测试申请，o3是o1的升级版本[102]，被认为具有博士级别的智能[7]。这些模型在各种具有挑战性的基准测试中取得了显著成果，包括在国际数学奥林匹克竞赛中获得金牌水平[73]，并在物理、化学和生物问题中达到博士水平表现[48]。广泛的评估通过系统分析其基本推理能力展示了o1系列的独特推理模式。我们列出了现有研究的关键发现如下：有效的知识整合：初步综合评估[194]展示了o1在基本问题解决任务中的结构化分析方法和知识整合能力，通过逐步逻辑推理在竞争性编程中实现了83.3%的成功率，模型展示了清晰的能力，利用其知识分解复杂问题并遵循形式推导过程。模型的结构化理解和跨领域知识应用在放射学和芯片设计等专业领域进一步得到证明，其中准确的诊断和复杂电路分析需要整合多个领域概念。系统评估[68]定量验证了这一模式，显示在结构化分析思维和计算推理任务中达到人类水平的150%。这一优势在需要跨领域知识整合的场景中尤为突出，例如将物理原理应用于生物系统或将统计方法与领域特定约束结合，表明其在知识综合和应用方面的基本能力。系统问题分解：o1在不同复杂程度的任务中保持了一致的表现，展示了在处理难度增加时的系统问题分解能力。在数学推理中，详细研究[27]展示了其系统问题分解方法，通过结构化解决步骤在荷兰数学B考试中接近满分。模型展示了识别关键数学原理、构建形式证明并逐步验证解决方案有效性的能力。这种一致性在更复杂的场景中得到了验证，如对105个科学和数学问题的研究[26]，随着问题复杂性的增加，模型在概念深度和计算需求方面保持了高准确性。在编程任务中，这一模式通过系统调试[52]在QuixBugs基准上进一步得到证明，o1通过结构化三步方法（错误识别、根本原因分析和针对性修正）在不同复杂程度的错误中保持了一致表现。复杂任务中的可靠和连贯推理：模型的推理在不同问题类型中有效适应，始终展示出各种任务中推理链的一致性。在规划任务中，PlanBench评估[144]展示了其系统处理确定性和概率场景的能力，在约束满足和状态管理方面表现出显著改进。模型在处理信息不完整和动态约束的问题时表现出特别优势，在标准和罕见任务变体中保持了一致表现[94]。这种适应性表明其在不同问题表述中的强大泛化能力。复杂规划研究[146]进一步展示了o1在长视野任务中保持推理连贯性的能力，有效管理扩展依赖链和上下文转换。这在其多步规划问题中的表现中得到证明，其中中间目标必须正确排序，依赖关系必须仔细管理，展示了其在时间推理和因果理解方面的高级能力。大型推理模型的新扩展定律：实证研究表明，o1在训练和推理阶段展示了独特的扩展模式。在训练期间，模型的大规模强化学习算法教会其使用思维链进行高效思考[103]。研究[134]表明，通过优化的测试时计算策略，模型在各种推理任务中实现了显著的性能改进。综合评估[194, 68]揭示，o1的推理能力可以通过推理阶段的高级计算分配有效增强，特别是在复杂问题解决场景中。这种方法的扩展约束与LLM预训练有显著不同，随着思考时间的增加，性能持续提升[103]。这在编程任务中得到证明，允许每个问题提交10,000次使模型能够显著提高结果，即使没有测试时选择策略，得分也超过了金牌阈值。模型在训练和推理阶段有效利用额外计算资源的能力表明推理架构的根本进步，展示了在传统方法可能需要显著更大模型规模的场景中的特别优势。

6.2 大型推理模型的开源尝试开源框架在开发高级推理能力方面也取得了重大进展。这些框架为研究人员和开发人员提供了宝贵的参考，旨在复制或近似专有模型（如OpenAI的o1）的推理优势。在本节中，我们介绍了四个重要的开源项目，每个项目采用不同的策略来增强LLM推理（总结在表2中）。通过探索它们的独特实现，我们旨在提供对强化LLM推理能力的多样化方法的见解。 OpenR项目[145]：该项目声称是第一个探索OpenAI o1模型核心方法的开源框架，采用强化学习技术。OpenR复制的核心是构建逐步推理数据，其中获得更精确和细粒度的反馈，而不是纯粹依赖最终答案。通过从构建的搜索树中选择推理轨迹，采用自动化数据增强算法OmegaPRM[85]。基于对每个推理步骤进行监督的增强过程数据，进一步在预训练的Qwen2.5-Math-7B-Instruct模型[168]上训练过程奖励模型。PRM可以直接部署在测试时计算中，与多数投票、最佳N或束搜索方法集成。它还可以用于在训练后阶段使用RL微调LLM。实验证明了PRM在测试时计算和训练后阶段的有效性。

*Rest-MCTS[183]**：与分别训练PRM和微调策略模型不同，他们将这两个更新集成在一个相互自训练循环中。基于类似设计的MCTS算法，预先收集过程奖励作为PRM训练的监督和策略模型训练的推理轨迹。然后基于初始策略ππ和初始PRM值VθVθ开始迭代训练过程。策略进一步迭代执行MCTS并生成解决方案，而值影响树搜索过程。它们的更新相互补充迭代。

o1复制之旅项目[110]：该项目旨在通过专注于全面的训练策略来复制OpenAI o1模型的推理能力，而不是彻底考虑两个阶段的改进实现。它强调了一个结构化的训练图，结合试错、反思和回溯以构建深度因果推理。项目的核心是数据生成，设计了高质量的训练示例以建模复杂推理路径。使用旅程学习方法，o1复制之旅将模型暴露于不同的逻辑序列和修正中，鼓励在训练阶段进行探索和适应性。然而，o1复制之旅在推理阶段较为简单，缺乏高级的训练后技术，这限制了其在实时推理中的适应性。与具有动态推理优化的模型相比，这种对训练的重视突出了其基础方法。

LLaMA-Berry[185]：该项目专注于优化推理阶段的能力，利用LLaMA-3.1-8B架构提供更复杂的实时推理调整。它采用了一种独特的成对优化方法，将蒙特卡罗树搜索与自我精炼（SR-MCTS）相结合，使模型能够在推理过程中动态探索和精炼解决方案路径。这种配置赋予LLaMA-Berry高度的适应性，使其能够高效灵活地处理复杂、开放式的推理任务。该框架的一个关键组件是成对偏好奖励模型（PPRM），它成对评估解决方案路径，确保优先考虑高质量的推理路径。LLaMA-Berry的增强Borda计数（EBC）然后整合这些偏好排名以指导模型的决策，进一步增强其推理阶段的复杂性。这种强大的架构使LLaMA-Berry成为推理导向强化的领先示例，与O1复制之旅的训练导向方法形成鲜明对比。

这四个开源框架不仅展示了强化推理的不同实现策略，还在提高对OpenAI o1模型的理解方面发挥了重要作用。它们共同扩展了开源社区可用的技术范围，推动了开发复杂、透明和适应性强的推理模型的集体目标，使专有级别的能力能够为公众所及。

7. 其他测试时增强技术

除了PRM引导的搜索外，还有许多其他技术旨在通过更多的测试时计算增强LLM的推理能力。这些技术在不修改模型本身的情况下动态精炼推理结果。如图4所示，诸如语言强化搜索、基于记忆的强化和代理系统搜索等方法展示了仅使用现成LLMs即可实现显著的推理改进。表3总结了探索这些方法的代表性工作。虽然这些方法不利用PRM，但它们为未来研究探索混合模型以进一步推进推理能力提供了基础。

7.1 语言强化搜索

语言强化搜索（VRS）利用LLMs的预训练推理和语义能力来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同，VRS纯粹通过测试时推理操作，使用迭代反馈循环来精炼解决方案，而无需额外训练。通过利用LLMs中编码的语义知识及其遵循复杂指令的能力，VRS提供了一种多功能的方法来导航多样化的问题空间。这种推理驱动的框架在个体代理、多代理系统和具身代理中找到了应用，支持广泛的任务，包括程序优化、协作决策和现实世界中的交互。本节通过这三个关键方面分析VRS，深入探讨每个类别中呈现的方法论和独特见解。在个体代理设置中，VRS依赖迭代推理和反馈机制来在结构化问题空间中精炼解决方案。这种方法非常适合数学优化、符号推理和假设驱动发现等任务，其中系统精炼显著改善了问题解决结果。数学发现研究展示了VRS如何将问题解决过程重塑为动态迭代循环。例如，对组合问题（包括帽集和在线装箱）的研究突出了通过反馈驱动评估演变的程序化解决方案[115]。同样，符号回归研究将方程视为动态构造，迭代生成、评估和优化数学表达式[130]。这些方法展示了VRS如何在约束空间中导航，在效率和准确性上超越传统优化技术。在科学发现中，VRS展示了其在整合推理与实证数据和模拟中的实用性。研究人员开发了通过综合多样化数据源进行生物医学假设精炼的系统。例如，在肿瘤学中的应用使用迭代综合来解决多尺度数据的复杂性[162]。在物理科学中，VRS用于通过模拟反馈精炼假设，推进分子设计和物理定律发现等领域[88]。这些发现强调了VRS在连接抽象推理与现实世界验证中的作用，支持数据密集型和假设驱动型任务。启发式优化中的反思过程进一步展示了VRS的灵活性。例如，研究人员探索了迭代生成和评估解决组合问题的策略[174]。这种方法专注于创建适应性超启发式，通过反馈循环不断精炼解决方案，从而在不同领域中有效泛化。总体而言，VRS应用迭代推理和反馈将抽象问题解决与现实世界应用连接起来，以精确和适应性解决数学、科学和优化中的挑战。在多代理系统中，VRS通过自然语言通信促进LLM代理之间的协作。这些系统利用共享推理和迭代精炼来应对复杂的解决方案空间，允许代理交换见解并实现共同目标。异构信息网络（HINs）中的元结构发现展示了VRS在多代理上下文中的应用。最近的研究结合了LLM推理与进化优化来精炼元结构，增强了其可解释性和预测准确性[20]。同样，在社会经济预测中，多代理系统整合知识图谱和元路径推理，为人口估计和经济活动预测等应用提取跨任务见解。这种方法促进了LLM代理之间的协作，并提高了多任务环境中的性能[199]。因果发现也受益于VRS启用的多代理框架。例如，使用LLMs作为推理代理的系统协作辩论并提出因果关系。通过结合统计方法和自然语言交互，这些框架生成准确的因果图，同时解决因果关系中的歧义[69]。在金融决策中，VRS增强了层次协作。FINCON框架采用经理-分析师系统，通过概念性语言强化精炼金融策略。通过最小化冗余通信和改进策略精炼，FINCON展示了VRS在优化金融决策过程中的实用性[176]。通过迭代精炼和共享推理，VRS支持多代理系统应对复杂任务，如元结构精炼、社会经济预测和金融决策。在具身代理设置中，VRS用于通过整合推理与物理交互来解决现实世界任务，支持实验室环境中的实验规划和执行等活动。这些系统将VRS扩展到动态环境，结合语义推理与实际实验。例如，自主化学研究展示了使用LLM驱动的系统独立设计、执行和精炼实验[13]。这些代理整合了工具，如机器人液体处理器、光谱设备和基于网络的研究模块，以执行反应优化和化合物合成等任务。一个应用涉及优化钯催化的交叉偶联反应，其中系统使用自然语言提示确定条件、计算化学计量并自主执行实验。当面对错误（如错误的模块调用）时，系统通过参考文档并迭代任务来修订其方法。这种迭代过程展示了VRS如何在实验工作流程中支持适应性和精确性。通过结合推理和实时反馈，具身代理展示了VRS在动态环境中精炼和优化复杂过程的能力。这些系统减少了人类干预，同时加速了科学发现，使其成为现实世界实验和创新的宝贵工具。总的来说，先前的研究展示了VRS在个体代理、多代理系统和具身代理中的适应性和有效性。利用LLMs的语义推理和迭代反馈能力，VRS无需额外训练即可应对广泛任务。从数学和科学背景中的结构化优化到多代理框架中的协作探索，再到现实世界应用中的动态实验，VRS提供了一种统一的问题解决方法。VRS作为一个多功能框架，能够在计算和物理领域中应对复杂挑战，同时推动多样化领域的进步。 7.2 基于记忆的强化当应用于开放式任务（如创意写作、复杂逻辑推理和开放世界游戏）时，解决方案空间往往会急剧扩展，通常变得无界或定义不清。这些任务通常需要与环境持续交互以获取相关信息，使得简单的解决方案空间搜索效率低下。为了解决这些挑战，一些研究为LLM代理引入了外部记忆模块。该模块存储了诸如观察、过去试验中的成功和失败行动等信息。代理通过记忆作为语言强化学习的基础，迭代探索其环境。通过这一过程，它们总结经验，提取解决方案空间的可解释高级见解，并在后续试验中精炼其行动，从而提高推理性能。这些研究不仅关注探索外部解决方案空间，还强调LLM代理从记忆中发展对解决方案空间理解的内在能力。随着代理通过环境探索积累记忆，其能力逐步增强并泛化到未见任务。具体来说，我们将该领域的研究分为以下三类。经验学习：此类方法鼓励LLM代理简单地模仿记忆中存储的有利经验，同时避免不利经验。REMEMBERER[184]引入了一种半参数RL-LLM代理，该代理记录过去的观察-行动对，并使用传统的离策略Q学习算法动态维护和更新每个观察-行动对的Q值（预期未来奖励）。当面临新任务时，代理从记忆中检索具有最高和最低Q值的相关行动，将这些作为鼓励和劝阻示例纳入提示中。记忆共享[39]利用多代理强化学习的概念来提高学习效率。多个代理在共享环境中并发执行任务，并将高质量的提示-答案对贡献到集体记忆池中。每个代理可以从该池中检索最相关的示例以促进少样本学习。类似地，经验共同学习[108]采用多代理框架，其中教师和助理代理在多步代码生成过程中交替提供指令和解决方案。这种动态交换有助于提取捷径以减少冗余并防止重复错误。当遇到新任务时，这些代理交替检索相关记忆以改进上下文学习。反思学习：虽然使用记忆作为少样本示例简单有效，但这种方法并未充分利用LLMs的语义理解能力。一些研究认为，LLM代理应直接反思存储在记忆中的成功和失败，明确总结潜在原因，并将这些见解作为指导方针。Reflexion[129]是该领域的开创性努力，基于任务反馈信号语义地反思成功或失败的原因。它将反思文本和过去轨迹集成到提示中，以增强后续试验中的决策能力。Expel.[190]结合模仿和反思，从记忆中检索最相关的成功经验，总结成功轨迹的模式，并通过成功-失败对的比较识别见解。RAHL[138]受分层强化学习启发，将记忆组织为目标模块和子任务模块，实现不同层次的反思和经验总结。对于新任务，它检索相关经验以分别制定高级目标和低级子任务。概念学习：明确反思显著增强了LLMs的推理能力。在此基础上，一些研究旨在使LLM代理发展超越特定任务的广义“概念”，促进对环境和任务的更广泛理解。这种泛化帮助代理从记忆中内化认知能力，并随着记忆的增长不断进化。例如，Agent-Pro[188]使代理能够在基于卡片的游戏中建立关于自身和环境的信念。它不反思个别行动，而是评估这些信念的合理性和一致性，迭代精炼策略。类似地，Richelieu[44]使代理在军事战略游戏中理解环境。它从记忆中检索最相关的状态以制定计划并评估可行性。通过自我对弈，它自主收集经验，扮演所有玩家的角色以推进其知识。Self-Evolving GPT[40]受人类记忆机制启发，为LLMs设计了一个基于记忆的自主学习框架。它对任务进行分类以确定相关记忆检索，并识别存储记忆与当前任务之间的差异以提取共享的通用经验。此外，它生成未见任务进行练习，基于记忆检索结果巩固其知识。 7.3 代理系统搜索代理系统的设计在利用LLMs进行许多下游任务中起着至关重要的作用。测试时增强技术的一个重要分支是利用LLMs搜索代理系统。该领域的研究可以分为三个搜索层次：提示层次、模块层次和代理层次。请注意，这种方法并不旨在直接搜索解决方案空间，而是利用经验数据优化代理系统本身，类似于元学习问题。我们总结了该领域的相关工作如下。提示层次：“验证和纠正”过程通过迭代整合有用的反馈经验来改进提示。验证信号可以来自外部反馈[43]、LLM的自我评估[90]和其他来源。另一方面，提示本身也值得搜索和优化。自动化提示工程，如进化提示优化[38]和元提示迭代[169]，可以实现比手动提示更好的结果，但也引入了更多的标记消耗。模块层次：Agentsquare[125]提出使用LLM搜索代理系统的模块化设计，其中模块本质上是具有特定功能的提示块，如规划、推理、工具使用和记忆。这些代理模块的基本单元具有标准IO接口，使它们能够良好协作。模块层次搜索的优势在于它允许新代理通过模块重组轻松重用经典代理设计，如CoT和ToT。此外，Aflow[186]通过代码表示的边连接LLM的不同调用节点。除了搜索方法外，评估搜索代理的性能也是必要的。用于评估代理性能的函数也可以由LLMs驱动，以提高搜索效率，同时紧密匹配其实际性能。代理层次：ADAS提出利用LLMs搜索整个代理系统，这些系统在Python代码空间中定义[53]。此外，多代理系统在共享环境中做出决策并实现目标。在多代理层次搜索中，关键方面包括代理创建、环境感知、行动、交互和系统进化。多代理系统的搜索在下游任务（如长故事创作）中取得了良好效果[54]。目前正在探索多代理系统的统一搜索和优化机制。GPTSwarm[200]通过图优化增强了代理的协作能力。代理系统搜索为代理提供了自我改进的能力，使其能够在不改变LLM结构的情况下优化自身以增强推理能力。上述三个搜索层次具有广阔的搜索空间。这三个搜索层次面临的共同挑战是提高搜索效率，降低搜索成本，并在确保搜索合理性的同时实现自动化。 7.4 总结本节回顾的测试时增强技术目前尚未纳入大型推理模型的实现中。然而，它们具有巨大潜力，通过更全面的测试时“思考”进一步提升LLMs的推理能力，促进LLMs在解决方案空间中战略性地推理，利用过去经验并动态优化代理工作流。因此，训练LLMs掌握这些测试时技术代表了一个有前景的未来研究方向，有可能将LLMs从“推理者”提升为完全功能的“代理”。

8. 评估基准

设计一个稳健的基准对于记录LLMs能力的改进至关重要。它还在选择有前景的研究方向以进一步推进方面发挥着关键作用。在本节中，我们系统地回顾了LLM推理的流行基准，这些基准在图5的分类中进行了总结。我们讨论这些基准如下。 8.1 数学问题数学推理已成为评估LLMs推理能力的关键测试平台。数学推理基准的领域从基础算术到高级大学数学，提供了系统评估数学理解和问题解决能力的不同方面的方法。在数学应用题（MWP）领域，基准从基本算术运算逐步发展到日益复杂的问题解决场景。在基础层面，MATH-401[177]等数据集通过401个精心构建的表达式评估纯算术能力，而MultiArith[116]和AddSub[51]评估将简单应用题转化为数学运算（如加法或减法）的能力。在小学和高中层面，综合数据集如GSM8K[24]和MATH[50]提出了更复杂的多步推理挑战，GSM8K提供了8.5K个小学问题，MATH提供了12.5K个跨多个数学领域的问题，难度逐渐增加。高级数学能力的评估主要通过竞赛和专门测试数据集进行。CHAMP[92]和ARB[5]等集合提出了竞赛级别的问题，需要复杂的问题解决策略，而MATHQA[5]则结合了GRE和GMAT考试中的标准化测试问题。在最高级别，FIMO[78]等数据集挑战模型解决国际数学奥林匹克问题，测试自动化数学推理的极限。几何推理代表了一个需要空间理解和形式数学证明的独特类别。Geometry3K[82]和GEOQA[19]等数据集提供了专门的几何问题，而UniGEO[18]提供了一个统一的几何推理任务框架，专注于计算和证明。这些基准特别有价值，用于评估模型连接视觉和数学推理的能力。定理证明和形式数学领域已经发展到包括严格的评估框架。MINIF2F[193]和LeanDojo[170]专注于与Lean定理相关的形式数学证明，而THEOREMQA-MATH[23]则考察数学定理的理解。TRIGO[166]和PISA[57]等专门数据集解决了数学推理的特定领域，如三角学和形式证明系统。最后，跨模态数学推理已成为一个关键领域，反映了数学问题在现实世界中的多样化呈现方式。MATHVISTA[81]和CHARTQA[93]通过图表和图表评估视觉数学推理，而TABMWP[83]和MultiHiertt[192]评估模型处理表格和文本数据的能力。SciBench[151]弥合了纯数学与科学应用之间的差距，测试了LLMs在更广泛科学背景下的数学推理能力。 8.2 逻辑问题建立在数学推理能力之上，系统逻辑推理能力是评估LLMs认知能力的另一个基本标准。虽然数学推理侧重于定量操作和形式证明，但逻辑推理涵盖了更广泛的推理能力，包括得出有效结论、识别模式和生成跨多样化上下文的合理解释。根据Luo等人[86]的分类，逻辑推理可以分为三种主要类型：演绎推理、归纳推理和溯因推理。每种类型代表了一种独特的认知过程，对于全面逻辑分析至关重要，同时在认知评估中保持相互联系。演绎推理，也称为基于前提的推理，涉及从一般原则中得出特定结论，具有绝对确定性。例如，给定一组关于实体之间关系的规则，模型必须确定哪些特定关系必须为真。ProofWriter[140]是这一类别的典型代表，要求模型从给定前提构建明确的逻辑推导。其他基准，如FOLIO[46]和PrOntoQA[119]评估自然语境中的一阶逻辑推理，WaNLI[77]引入了日益复杂的评估标准，包含107,885个示例。归纳推理强调从特定观察中识别模式并推广到更广泛的原则[47]。这涉及识别潜在规律并将其扩展到新情况，处理概率而非确定性。BigBench[136]包含众多专门组件，用于检查高级模式推理能力。此外，CLUTTR[132]基准系列通过不同复杂度的关系模式评估这一能力。溯因推理，也称为解释性推理，指的是为一系列观察或事实形成最可能解释的过程，尽管结论并不保证确定性[34]。这种推理类型测试模型如何处理信息不完整的场景，通过生成合理的解释。ααNLI[99]基准通过叙事完成任务实现了这一点，模型必须选择给定情况的最可能解释。AbductionRule[175]系列提供了跨不同领域的结构化评估框架，具有特定变体用于动物相关和人物相关的推理场景。ααARCT[100]特别考察了选择和证明合理解释以及论证理解的能力。 8.3 常识问题常识推理仍然是NLP中的一个重要挑战，旨在评估LLMs理解和应用日常常识知识的能力。有各种基准针对常识推理任务的不同维度。例如，CommonsenseQA[141]要求模型回答基于常识知识库的推理问题。 SocialIQA[118]专注于社交互动常识推理，围绕社交场景中的因果推理展开。相比之下，SWAG[178]和HellaSwag[179]等数据集引入了对抗性文本推理任务，模型必须基于上下文线索预测事件的最可能延续，从而增加任务复杂性。对于物理常识推理，PIQA[12]和PHYRE[10]等基准专注于评估模型对日常物理任务和交互推理场景的理解。PIQA主要使用问答任务，而PHYRE强调交互物理模拟。类似地，WinoGrande[117]在Winograd Schema Challenge的基础上引入了更大规模的数据集和更复杂的消歧任务，以测试语义理解和共指解析能力。其他工作，如OBQA[95]和CConS[63]，探索了模型在反常识上下文中的表现，突出了当前模型在隐式推理和背景知识利用方面面临的挑战。最近，综合基准如MMLU[49]和关键研究如FactCC[66]进一步分析了LLMs的常识推理和事实推理。这些基准为评估和改进语言模型在多样化常识推理任务中的表现提供了宝贵的视角。

8.4 代码问题代码生成基准的发展对于评估LLMs在编程任务中的推理能力至关重要。这些基准评估模型在生成准确、高效和可靠代码方面的熟练程度，涵盖各种领域。例如，ODEX[155]引入了一个执行驱动的评估框架，用于开放域代码生成，强调运行生成代码以验证其正确性和功能的重要性。在现实世界场景中，SWE-bench[58]专注于真实的GitHub问题，挑战模型解决实际软件工程问题。在数据科学领域，DS-1000[67]提供了一个基准，包含真实且可靠的数据科学代码生成任务，使评估模型处理复杂数据操作和分析的能力成为可能。此外，APPS基准[49]通过评估模型在多样化编程问题上的表现来衡量编码挑战能力，反映了竞争性编程和技术面试中的挑战。 MBPP[6]专注于程序合成问题，评估模型根据给定规范生成正确和高效代码的能力，从而有助于理解LLMs在自动化代码生成中的能力。HumanEval[21]通过提供一组Python编程问题来评估经过代码训练的LLMs，每个问题都提供了函数定义和附带文档，要求模型生成正确且功能性的代码解决方案。 8.5 代理问题基于代理的基准的出现彻底改变了我们在交互环境中评估LLMs作为独立代理的能力。这些复杂的评估框架评估了跨多样化场景的关键能力，包括决策、推理和环境交互。 WebArena[197]提供了一个实用的网络环境，用于构建和测试自主代理，使评估LLMs的网络导航和交互技能成为可能。类似地，Mind2Web[28]旨在开发能够在多样化网络任务中操作的通才代理，强调在动态在线环境中的适应性。在电子商务设置中，WebShop[171]引入了一个平台，用于可扩展的现实世界网络交互，专注于能够执行在线购物等任务的接地语言代理，从而测试模型的实际应用能力。为了桥接文本和具身环境，ALF-World[131]将基于文本的输入与交互学习场景对齐，促进了评估模型在不同模态之间转移知识的能力。综合评估框架如AgentBench[79]和AgentGym[164]已被开发用于系统评估作为代理的LLMs。AgentBench包括多样化环境以评估推理和决策技能，而AgentGym专注于在多样化设置中进化LLM代理，强调适应性和学习效率。此外，AgentBoard[87]提供了一个分析平台，用于评估多轮LLM代理，提供了对其在扩展交互中的表现的见解，并突出了持续推理任务中的改进领域。

讨论 9.1 近期进展的启示后训练阶段的扩展定律：OpenAI o1系列的启示导致了对预训练/后训练/推理阶段的新理解。特别是，它涉及在后训练阶段引入自对弈强化学习和高质量思维链标注数据的过程奖励学习。进一步，它扩展到后训练阶段的扩展定律，这为训练阶段扩展定律的进一步发展提供了启示。正如我们所知，预训练和训练阶段的扩展定律导致了流行LLMs的成功，伴随着训练数据和计算资源的巨大投资。然而，它现在达到了瓶颈，因此，后训练阶段的扩展定律可能是大型语言模型下一阶段发展的驱动力。此外，LLM驱动的代理[163]也展示了通过精心设计的工作流实现巨大潜力，即使推理能力尚未得到强化。因此，关于资源消耗和性能是否会在LLM代理中表现出类似的扩展定律仍然是一个开放问题，这可能是进一步增强LLM在现实世界应用中的潜力。通过搜索生成高质量数据：OpenAI o1系列核心技术人员披露的技术思想以及当前尝试复现OpenAI o1的开源工作都将高质量数据（包括CoT数据）的生成视为关键点，尽管采用了不同的方法，如蒙特卡罗树搜索、LLM生成等。也就是说，大型推理模型的发展达到了一个阶段，高质量的过程奖励数据比一般预训练数据规模更为重要。同样，如上所述，这可能启发我们在LLM代理中参考这些相关方法，首先进行高质量数据生成，然后增强慢速推理的学习以及能力的获取。 9.2 慢思考与推理即使OpenAI o1系列在工程层面的突破仍然未知，从理论上和技术上看，其突破目前似乎主要在于慢思考数据的后训练学习。此外，人类认知科学中的“系统1 + 系统2”已被反复提及，但基于大型模型实现它的想法不断更新，主要仍停留在借鉴慢思考概念的阶段。也就是说，人类大脑的“系统1 + 系统2”机制指导了LLMs的设计，但这种指导仍然非常有限。换句话说，对人类大脑的模仿仅停留在系统级设计，而不是非常详细的技术。人类慢思考的复杂机制及其益处仍然显示出支持LLMs下一级推理能力的高潜力。为了实现这一点，慢思考的领域知识应被用于相关的设计中，如推理数据生成、奖励函数、学习过程等。到目前为止，关于LLMs慢思考的理论分析尚未出现真正具有代表性和重要性的工作。生成式人工智能是如此神秘，以至于理解LLMs也需要一些技巧或特殊技术，例如用于理解LLM幻觉的新指标[37]。为了理解慢推理能力，我们可能也需要进入理论分析的领域。以OpenAI o1 Preview和OpenAI o1 Mini两个版本为例，它们的主要区别在于CoT推理阶段的思考成本和深度，然而它们在文本生成、代码生成和数学问题解决等任务中表现出显著差异。LLMs表现出的特殊推理特性也启发我们设计任务自适应的使用和应用。具体来说，将推理机制与不同任务中的表现联系起来，可能会支持更多有趣的见解。 9.3 下游应用与开放问题正如本文所指出，推理增强技术的进展非常迅速。推理能力不仅限于这些流行基准任务中的表现，还体现在更广泛的下游应用中。例如，FunSearch工作[115]展示了在难以提供解决方案但验证速度快的任务中的通用能力。在各个领域中可能存在许多具有类似特征的任务，例如城市规划、物流调度等。一个有趣的问题是，当前研究中是否存在许多互补的问题，这些问题难以验证，但推理过程较为简单。通过结合LLMs和外部评估器，可能进一步验证某些答案的质量，或者我们可以使用这些经过评估的答案来训练奖励模型。

10. 结论

LLMs的近期发展显著提升了其类人推理能力。通过引入“思维”作为中间步骤的概念，利用强化学习技术进行训练时扩展，以及使用搜索算法进行测试时扩展，为大型推理模型奠定了基础。这些模型能够应对日益复杂的认知任务，OpenAI的o1系列便是其中的典范。这一领域的持续进展有望重塑我们对语言的理解，并推动AI在解决现实世界问题中的应用。

成为VIP会员查看完整内容

1 引言

相关内容