大规模语言模型推理的进展综述

摘要—大规模语言模型（LLMs）在各种自然语言处理（NLP）任务中取得了显著成功，但它们的推理能力仍然是一个根本性挑战。尽管LLMs在流畅性和事实回忆方面表现出色，但在进行复杂推理时——涵盖逻辑推理、数学问题求解、常识推理以及多步骤推理——它们的表现常常未能达到人类的预期。本文综述了增强LLMs推理能力的新兴技术，并将现有方法归类为几种关键途径，包括提示策略（如链式思维推理、自一致性推理和树状思维推理）、架构创新（如检索增强模型、模块化推理网络和神经符号集成）以及学习范式（如使用推理专用数据集的微调、强化学习和自监督推理目标）。此外，本文还探讨了用于评估LLMs推理能力的评估框架，并强调了如幻觉、鲁棒性和推理在不同任务中的泛化等挑战。通过综合近期的进展，本文旨在为推理增强型LLMs的未来研究方向和实际应用提供见解。关键词—大规模语言模型（LLMs）、推理、逻辑推理、数学问题求解、常识推理、多步骤推理、提示策略、链式思维推理、自一致性推理、树状思维推理、检索增强模型、模块化推理网络、神经符号集成、强化学习、自监督学习、幻觉、人工智能推理。最近发布的LLM DeepSeek-R1 [1] 在数学和编程等复杂任务中表现突出，展示了先进的推理能力。它能够有效模拟类似人类的分析思维，提升数学、逻辑和编程等领域中的多步骤推理能力。

I. 引言

大规模语言模型（LLMs）在自然语言处理（NLP）领域引发了革命性的变化，实现了机器翻译、文本生成、问答系统等复杂语言任务的突破。尽管这些模型在流畅性和知识保持方面表现出色，但它们在系统性推理方面常常遇到挑战——这一能力对于需要逻辑推理、问题解决和决策的任务至关重要[2]。虽然LLMs能够生成似是而非的回答，但它们经常出现推理错误、不一致性和幻觉，限制了它们在科学发现、法律和医学等关键领域的可靠性[3][4]。人工智能中的推理广泛涵盖了多个认知过程，包括演绎推理、归纳推理、溯因推理和常识推理[5]–[9]。与基于检索的知识综合不同，推理要求进行多步骤的逻辑转换、上下文推广和结构化问题求解。传统的人工智能方法通过基于规则的符号系统处理推理问题[10][11]，然而将这种结构化推理与基于数据驱动的LLMs范式相结合，仍然是一个持续的挑战。近期的研究探索了多种方法来增强LLMs的推理能力。这些方法可以分为三个领域：（1）提示策略，如链式思维（CoT）推理[12]、自一致性推理[13]和树状思维推理[14]方法，这些方法利用结构化提示来引导逐步推理；（2）架构创新，包括检索增强模型[15]、神经符号混合框架[16]以及整合结构化知识和逻辑的模块化推理架构[17]；（3）学习范式，涉及使用专用数据集的微调[18]、强化学习以保持推理一致性[1]和鼓励逻辑泛化的自监督目标[19]。在近期的进展中，刚发布的LLM DeepSeek-R1 [1]在推理性能上表现出色，特别是在数学和编程等复杂领域。DeepSeek-R1通过有效模拟类人分析思维，增强了数学问题求解、逻辑推理和编程任务中的多步骤推理，展示了微调架构和新型训练范式在提升LLMs结构化推理方面的潜力。本综述系统地回顾了LLM推理的这些进展，评估了它们的有效性、局限性和应用，涵盖了评估基准、对抗性鲁棒性、跨领域泛化和推理偏见等关键挑战。通过综合近期的进展，本文提供了对有前景的技术和未来研究方向的全面概述。本文的结构如下：第二节介绍推理的基础，第三节探讨基于提示的推理增强，第四节讨论架构创新，第五节考察基于学习的方法，第六节重点讨论评估和基准测试，第七节强调挑战和开放研究方向，第八节总结全文。

2. AI和LLMs中的推理基础

2.1 定义和推理类型推理是从前提或证据中得出结论的认知过程。它可以分为以下几种类型：演绎推理：从一般前提中得出具体结论。如果前提为真，结论必须为真。这种方法在形式逻辑和自动定理证明中是基础。归纳推理：从具体例子或观察中得出一般原则。这种方法在机器学习的模式识别和预测中很常见。溯因推理：推断给定观察的最可能解释，常用于诊断和假设形成。常识推理：应用一般世界知识来推断合理结论，这对于理解人类交流中的隐含意义至关重要。概率推理：使用概率论处理逻辑推理中的不确定性，通常在贝叶斯网络和马尔可夫模型中实现。2.2 经典AI推理方法传统的AI研究长期以来一直专注于结合结构化知识表示的形式推理技术。一些关键的经典方法包括：符号逻辑：使用一阶逻辑（FOL）和命题逻辑推导结论的形式规则系统。基于规则的系统：应用预定义规则推断逻辑结论的AI模型，用于专家系统和决策树。知识图谱：实体及其关系的结构化表示，支持通过图遍历和推理机制进行推理。自动定理证明（ATP）：使用逻辑演绎证明数学定理的算法，如命题逻辑中的归结原理。贝叶斯网络：通过表示变量之间的依赖关系，在不确定性下进行推理的概率图模型。尽管这些经典方法提供了强大的逻辑基础，但它们在应用于开放式、非结构化问题（如自然语言理解）时，面临着可扩展性和适应性的挑战。2.3 大语言模型中的推理大语言模型（LLMs）如GPT-4、PaLM和LLaMA利用深度学习架构（主要是Transformer）来处理和生成类人文本。然而，它们的推理能力与传统AI方法有显著不同：统计学习与符号逻辑：与遵循显式逻辑规则的符号AI不同，LLMs学习语言数据中的概率模式，使其推理隐含且非确定性。涌现的推理能力：研究表明，扩展LLMs可以提高其执行多步推理任务的能力，尽管缺乏显式逻辑约束。上下文和提示驱动的推理：LLMs严重依赖上下文窗口和外部提示工程技术（如链式思维提示）来生成推理响应。逻辑推理的局限性：虽然LLMs在识别语言模式方面表现出色，但它们在形式逻辑、数学证明和系统验证结论方面表现不佳。2.4 LLMs推理的挑战尽管取得了进展，LLMs在实现稳健和可靠的推理方面仍面临几个挑战：幻觉：LLMs有时会生成看似合理但错误的信息，导致不可靠的推理。缺乏显式记忆：与知识图谱或基于规则的系统不同，LLMs缺乏结构化的长期记忆，使得推理一致性难以维持。多步推理的困难：尽管链式思维提示等技术有所帮助，但LLMs经常无法正确遵循多步逻辑结构。偏见和可解释性问题：由于LLMs在大量文本语料库上训练，它们会继承数据中的偏见，这可能会以不可预测的方式影响推理输出。跨领域泛化的局限性：在多样化数据集上训练的LLMs仍然难以在不同领域之间转移推理技能（如法律推理与科学推理）。2.5 弥合AI推理与LLMs之间的差距为了增强LLMs的推理能力，最近的研究探索了将传统推理技术与深度学习相结合的混合模型。关键方向包括：使用结构化推理数据进行微调：在专门关注逻辑推理和数学问题解决的数据集上训练LLMs。检索增强推理：通过知识检索机制增强LLMs，使其能够基于外部事实生成响应。神经符号AI：将神经网络与符号推理框架相结合，以利用两者的优势。自监督和强化学习技术：鼓励模型通过迭代自训练和奖励机制来优化其推理。

3. 基于提示的推理增强

大语言模型（LLMs）通过结构化提示展示了涌现的推理能力，绕过了微调的需要。本节探讨了关键的提示技术，如图1所示，并在表I中进行了总结。3.1 链式思维（CoT）推理链式思维（CoT）推理是一种提示技术，用于提高大语言模型（LLMs）解决复杂推理问题的能力。它涉及将问题分解为一系列中间步骤，使模型能够更有效地推理并得出准确的结论。该技术在复杂的数学问题解决、逻辑推理和常识推理中特别有效。逐步推理：模型生成一系列逻辑步骤来解决问题，而不是立即回答，从而提高多步问题解决的准确性。中间推理：该方法通过考虑子问题来模仿人类的问题解决过程，然后再得出最终答案。性能提升：研究表明，与标准提示相比，CoT提示在算术和逻辑任务中的表现有所提高。局限性：虽然CoT增强了可解释性，但其有效性取决于提示设计和模型大小。在某些情况下，模型可能仍会生成错误的中间步骤。3.2 自一致性提示自一致性提示是一种先进的提示技术，通过生成多个不同的推理路径并选择最一致的答案来提高推理准确性。该方法在复杂推理任务中非常有用，因为单一的链式思维（CoT）可能容易出错。该技术通过聚合输出来减少响应的变异性并提高准确性。多个推理路径：模型生成多个不同的推理链，而不是单一的逐步解决方案。多样化的思维过程：每个推理链可能遵循不同的逻辑方法，减少了单一轨迹中的偏见。最终答案的多数投票：最终响应基于生成的样本中最频繁出现的正确答案。3.3 树状思维（ToT）推理树状思维（ToT）推理是一种高级问题解决框架，通过探索树状结构中的多个可能推理路径来扩展CoT推理。与遵循单一线性推理路径不同，ToT允许在每个步骤中进行分支和评估，从而产生更稳健和最优的解决方案。结构化探索：模型在树状结构中探索不同的路径，选择最优的推理路线。决策评估与剪枝：ToT推理在组合和规划任务中特别有效。最终答案选择：基于评分或多数选择过程选择最佳推理路径。3.4 程序辅助语言模型（PAL）程序辅助语言模型（PAL）是一种通过允许模型调用外部计算工具（如Python或符号求解器）来执行计算、执行基于逻辑的步骤或验证解决方案的技术。与纯粹依赖内部基于标记的推理不同，PAL利用外部代码执行来提高准确性和可靠性。基于执行的验证：模型生成代码格式的推理步骤，执行代码以验证正确性。数学推理中的更高准确性：PAL在需要精确计算的任务中表现出色。依赖外部工具：该方法需要与外部计算环境集成，限制了其可扩展性。实证研究表明，CoT和自一致性提示显著提高了推理性能，特别是在数学和逻辑等结构化领域。

4. 增强推理的架构创新虽然基于提示的技术提高了大语言模型（LLMs）的推理能力，但架构创新在增强其执行结构化和复杂推理的能力方面起着至关重要的作用。本节探讨了各种模型架构和修改，以提高逻辑推理、多步推理和知识集成。

4.1 检索增强生成（RAG）检索增强生成（RAG）是一种结合信息检索与文本生成的AI框架。它通过结合外部知识源来增强LLM推理。与仅依赖参数记忆相比，该方法提高了响应的准确性、相关性和事实基础。查询处理：输入查询被处理并嵌入到向量空间中。模型使用检索系统（如密集段落检索、BM25）搜索相关文档。检索到的文档被附加到输入中。知识增强推理：基于查询和检索到的信息，RAG模型补充其推理过程。减少幻觉：通过将响应基于外部数据，RAG有助于减少纯生成模型中常见的幻觉。4.2 神经符号混合模型神经符号混合模型结合了神经网络（擅长模式识别和从数据中学习）与符号AI（支持推理、逻辑和显式知识表示）。这种融合旨在创建更可解释、可泛化和稳健的AI系统。逻辑与学习的集成：这些模型使用神经网络处理非结构化文本，同时使用符号逻辑进行基于规则的推理。神经网络提取特征，而符号系统提供逻辑推理。增强的可解释性：符号组件提高了透明度，使推理步骤更易解释。基于规则的系统、知识图谱和形式逻辑支持结构化推理。4.3 记忆增强神经网络记忆增强神经网络（MANNs）是将外部记忆与神经网络集成的AI模型，使其能够动态存储、检索和操作信息。MANNs可以从外部记忆模块中读取和写入数据，使其在长序列推理一致性、终身学习和少样本学习任务中更具适应性。控制器（神经网络核心）：处理输入并管理与内存交互的神经网络（通常是RNN或Transformer），决定何时以及如何读取/写入数据。外部记忆存储：一种结构化记忆组件（如可微分记忆矩阵或键值存储），用于随时间保存信息。与仅依赖隐藏状态的标准RNN不同，MANNs显式检索和更新记忆。记忆访问机制：记忆增强神经网络中的读/写操作通常是可微分的，支持基于梯度的学习。寻址机制包括基于内容的寻址（通过评估与存储数据的相似性来检索记忆）和基于位置的寻址（基于位置或顺序访问记忆）。

4.4 图神经网络（GNNs）和知识图谱图神经网络（GNNs）通过显式表示实体及其关系，提供了结构化推理框架，支持逻辑推理和多跳问答。结构化表示：图神经网络是设计用于处理图结构数据的神经模型。与传统的深度学习模型（处理图像等网格或文本等序列）不同，GNNs可以建模相互连接实体之间的复杂关系。知识图谱上的推理：知识图谱将事实表示为实体和关系的结构化格式，通常为三元组（主语、谓语、宾语）。当GNNs应用于知识图谱时，它们支持推理、推断和发现隐藏关系。提高可解释性：基于知识图谱的推理通过使推理路径显式化来增强透明度。

4.5 工具使用和API增强LLMs可以通过外部工具和API增强推理能力，利用语言建模之外的专业计算资源。程序化推理：模型调用外部计算器、定理求解器或搜索引擎来验证推理步骤。动态数据集成：如表II所示，API支持实时访问更新知识，提高推理的事实准确性。局限性：依赖外部服务会引入延迟，并需要访问控制机制。实证结果表明，检索增强和神经符号模型在结构化推理任务中优于标准Transformer架构。

5. 基于学习的推理方法除了提示和架构创新外，基于学习的方法在提高大语言模型（LLMs）的推理能力方面至关重要。这些方法涉及训练范式，如使用推理特定数据集进行微调、强化学习以提高一致性，以及自监督学习以支持逻辑推理。本节探讨了各种基于学习的方法，以增强LLMs的推理能力。

5.1 使用推理特定数据集进行监督微调在高质量推理数据集上微调LLMs可以提高模型的逻辑、数学和常识推理能力。数学和逻辑推理：在MATH和GSM8K等数据集上微调，增强了数学问题解决和逻辑推理能力。常识和因果推理：在SWAG和Abductive NLI（aNLI）等数据集上微调，帮助模型学习常识推理和溯因推理。科学和多跳推理：在ARC和HotpotQA等数据集上微调，提高了多步推理和问答能力。尽管微调可以显著提高模型性能，但需要仔细的数据集策划，以防止过拟合并确保泛化能力。

5.2 基于人类反馈的强化学习基于人类反馈的强化学习（RLHF）等方法训练模型，使其推理与人类偏好保持一致。逻辑一致性的奖励模型：RLHF根据人类评估者的反馈优化模型输出，减少逻辑推理中的错误。奖励模型（RM）训练：人类评估者根据偏好评估多个模型输出。一个专门的神经网络（称为奖励模型）在这些排名上进行训练，以捕捉人类偏好。模型生成并评估其推理步骤，通过迭代学习优化正确解决方案。通过近端策略优化（PPO）进行强化学习：PPO是一种强化学习算法，用于优化模型，同时防止其基础性能的剧烈偏离。

5.3 自监督和对比学习用于推理自监督学习（SSL）和对比学习（CL）已成为训练大规模语言模型进行推理任务的有效方法。与依赖人工标注数据的监督学习不同，SSL和CL利用数据中的固有结构来创建有用的表示并提高推理能力。用于逻辑推理的对比学习：通过训练模型区分有效和无效的推理链，对比学习提高了逻辑一致性。对比学习优化对比损失（如InfoNCE或Triplet Loss），鼓励正确的推理对具有更高的相似性分数。使用合成数据进行自训练：模型生成合成推理路径并验证其正确性，迭代优化其推理能力。零样本和少样本推理改进：自监督学习通过使模型能够直接从原始数据中提取抽象推理模式，增强了模型在新推理任务中的泛化能力。

5.4 自动验证器和批评模型为了进一步提高推理准确性，LLMs可以与自动验证器配对，后者对模型的输出进行批判性评估。二次验证模型：一个单独的模型评估LLM的推理输出，过滤掉错误的推理。形式证明检查：与定理证明器集成，允许模型严格验证逻辑推理。局限性：由于难以形式化自然语言推理，自动验证仍然具有挑战性。

6. LLMs推理的评估和基准测试

评估大语言模型（LLMs）的推理能力需要使用标准化的基准和性能指标进行系统评估。本节探讨了各种评估方法，包括推理基准、关键性能指标、与人类推理的比较分析以及当前评估策略的局限性。

6.1 流行的推理基准

已经开发了多个基准来评估LLMs在不同推理方面的能力，从数学问题解决到逻辑推理和常识推理。

ARC（A12推理挑战）：通过要求跨不同知识领域的多步推理来衡量常识和逻辑推理能力。
LogiQA：评估逻辑推理能力的数据集，特别是在演绎和溯因推理场景中。
GSMBK：专注于小学数学推理问题的数据集，评估多步算术推理能力。
MATH：测试模型在高中和竞赛级别数学上的基准，评估形式数学推理。
BIG-Bench：涵盖各种推理任务的广泛数据集，包括逻辑推理、抽象和多跳推理。
ProofWriter：评估模型执行自动定理证明和逻辑推理的能力。
HotpotQA：专注于多跳问答的数据集，要求模型结合来自多个来源的信息进行推理。
HumanEval：评估LLMs生成代码的能力。它评估模型理解编程相关任务并根据提供的规范生成语法正确且功能准确的代码的能力。
ANLI（对抗性NLI）：通过对抗性生成的推理任务测试模型在自然语言推理中的表现。
HellaSwag：测试常识自然语言推理的基准。它要求模型预测句子最可能的结尾。
测量大规模多任务语言理解（MMLU）：评估57个学科中的一般知识和问题解决能力，包括初等数学、美国历史、计算机科学和法律。

VII. 挑战与开放研究方向

尽管在增强大规模语言模型（LLMs）推理能力方面取得了显著进展，仍然存在若干挑战。这些局限性妨碍了它们在高风险领域的可靠性、鲁棒性和适用性。本节讨论了关键挑战，并提出了解决这些问题的开放研究方向。A. 幻觉与虚假信息LLMs推理中的一个关键挑战是生成幻觉或事实错误的信息[20]。未验证的推理步骤：LLMs有时会生成看似合理但实际上不正确的推理链，导致逻辑不一致[48]。事实检查机制：现有的事实检查技术未能有效过滤多步骤推理任务中的虚假信息[30]。开放研究方向：开发自动化验证工具，并将LLMs与结构化数据库集成，以提高事实准确性。B. 跨领域泛化LLMs往往难以将推理能力泛化到不同领域，限制了它们在新场景中的适应性[49]。领域特定过拟合：在特定推理数据集上进行微调可能会提升目标任务的性能，但却妨碍了模型在未见领域中的适应性[32]。跨领域迁移学习：当前的迁移学习方法在保持推理一致性方面存在局限性，尤其在不同语境下[19]。开放研究方向：研究元学习和持续学习策略以促进跨领域泛化。C. 对抗性攻击的鲁棒性LLMs容易受到对抗性扰动的影响，这些扰动利用推理中的弱点，导致错误或误导性的输出[44]。对输入变化的敏感性：在提示词中做出微小修改可能会导致推理输出发生显著变化，影响模型的可靠性。对抗性鲁棒性测试：现有的基准测试并未充分评估LLMs在对抗性推理挑战中的表现[27]。开放研究方向：开发稳健的对抗性训练技术，提高模型对输入操控的抗性。D. 结合符号推理与神经推理LLMs依赖于统计模式识别，而非形式化的逻辑推理，这导致它们在复杂推理任务中出现错误[16]。纯神经网络方法的局限性：LLMs在结构化逻辑、形式证明和抽象符号推理方面表现较差[40]。神经符号人工智能：将神经网络与符号推理框架结合，可以增强逻辑一致性和可解释性[16]。开放研究方向：推进混合神经符号架构，以增强推理的人工智能模型。

VIII. 结论推动大规模语言模型（LLMs）中的推理能力发展是人工智能发展的一个关键里程碑。尽管在提示技术、架构创新和基于学习的方法上有所进步，但在逻辑一致性、泛化能力、鲁棒性和可解释性等方面仍然存在挑战。本文综述了增强LLM推理能力的关键方法，将其分类为提示技术、架构创新和基于学习的策略。

成为VIP会员查看完整内容