大语言模型(LLMs)的最新进展显著提升了其执行复杂推理任务的能力,实现了从快速直觉思维(系统1)到缓慢深度推理(系统2)的跨越。 尽管系统2推理能提高任务准确性,但其“慢思考”特性以及低效或不必要的推理行为往往导致巨大的计算成本。相比之下,系统1推理计算效率更高,但性能表现欠佳。因此,如何在性能(收益)与计算成本(预算)之间取得平衡至关重要,这也催生了“推理经济性”的概念。 本综述对LLMs训练后阶段和测试时推理阶段的推理经济性进行了全面分析,涵盖: 1. 推理低效的成因; 1. 不同推理模式的行为分析; 1. 实现推理经济性的潜在解决方案

通过提供可落地的见解并指出开放挑战,我们旨在为优化LLMs推理经济性的策略提供启示,从而推动这一新兴领域的深入研究。此外,我们开放了一个公共资源库,持续追踪这一快速发展领域的最新进展。

**1 引言

大语言模型(LLMs)在各类语言理解与生成任务中展现出卓越性能,尤其是伴随思维链(Chain-of-Thought, CoT)提示(Wei et al., 2022)技术的出现,该技术要求模型通过显式的分步推理生成最终答案。尽管LLMs在多数场景中表现优异,但其依赖快速直觉思维的机制在面对复杂推理挑战(如高阶数学(AIME, 2025; Zhong et al., 2023)与编程任务)时往往力有不逮。为此,近期研究试图通过慢速深度思考(Wang et al., 2025a)进一步提升LLMs的推理能力,例如OpenAI的o1(OpenAI, 2024)、DeepSeek的R1(DeepSeek-AI et al., 2025)与QwQ(QwQ, 2025)等模型,从而催生了大推理模型(Large Reasoning Models, LRMs)的兴起与推理阶段的新扩展定律(Snell et al., 2024)。 然而,这一进步代价高昂。此类LRMs需耗费显著更长的思考时间以生成冗长的CoT推理链,导致巨大的推理开销。但并非所有任务均需如此深度的思考——任务复杂度各异,若对所有问题采用“一刀切”策略,将造成计算与时间资源的浪费。更甚者,长推理链中的大量标记(tokens)往往对最终答案无实质贡献。研究发现,LRMs常将过量资源(Wu et al., 2025; Cuadron et al., 2025)浪费于无效思考(如“过度思考”),却未为真正困难的问题分配足够算力(如“思考不足”)(Snell et al., 2024; Wang et al., 2025e)。 能力与效率的失衡引出了一个核心挑战——实现推理经济性(Reasoning Economy),即通过优化标记使用(预算)、减少冗余步骤、动态调整算力分配,达成全局最优解。这不仅可提升LRMs的效率,还能像人类一样“智能”地停止或深入思考(Aggarwal et al., 2023; Kimi Team et al., 2025),充分释放模型潜力。随着推理经济性日益重要,亟需系统性地理解LRMs的推理行为、揭示高效化面临的挑战,并明确解决方案。 本综述首次对LRMs的推理经济性进行全面系统的梳理。具体而言,我们首先建立LRMs的理论基础(§2),解析训练后方法(§2.1)(如监督微调与强化学习)如何塑造推理行为,以及测试时策略(§2.2)(如并行与序列化推理)如何影响模型表现。基于此,我们深入分析推理经济性的挑战(§3),将其归类为模型自身的低效行为(§3.1)或测试时的低效使用(§3.2)。最后,我们从两方面探讨优化推理经济性的解决方案: 1. 训练后行为调控(§4):从数据、算法乃至模型架构源头修正不良推理模式; 1. 测试时动态计算适配(§5)。 此外,我们讨论了开放挑战并展望未来研究方向(§6)。通过提供清晰的结构化路线图,本研究旨在为推动更可持续的LRMs发展提供可落地的指导。

成为VIP会员查看完整内容
10

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
多模态思维链推理:全面综述
专知会员服务
46+阅读 · 3月23日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
22+阅读 · 3月21日
从系统1到系统2:推理大语言模型综述
专知会员服务
37+阅读 · 2月25日
大语言模型中的逻辑推理:综述
专知会员服务
45+阅读 · 2月15日
大规模语言模型推理的进展综述
专知会员服务
54+阅读 · 2月8日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
大型语言模型的高效提示方法综述
专知会员服务
72+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
43+阅读 · 2024年2月14日
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
最新《图嵌入组合优化》综述论文,40页pdf
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
无人机集群、蜂群与蜂群算法
无人机
91+阅读 · 2018年9月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
多模态思维链推理:全面综述
专知会员服务
46+阅读 · 3月23日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
22+阅读 · 3月21日
从系统1到系统2:推理大语言模型综述
专知会员服务
37+阅读 · 2月25日
大语言模型中的逻辑推理:综述
专知会员服务
45+阅读 · 2月15日
大规模语言模型推理的进展综述
专知会员服务
54+阅读 · 2月8日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
83+阅读 · 2024年5月3日
大型语言模型的高效提示方法综述
专知会员服务
72+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
43+阅读 · 2024年2月14日
相关资讯
数据受限条件下的多模态处理技术综述
专知
19+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
36+阅读 · 2022年7月13日
最新《图嵌入组合优化》综述论文,40页pdf
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
无人机集群、蜂群与蜂群算法
无人机
91+阅读 · 2018年9月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员