随着预训练时代对计算规模(数据和参数)扩展的热情逐渐减退,测试时扩展(Test-Time Scaling,简称 TTS,亦称为“测试时计算”)已成为当前的研究热点。最新研究表明,TTS 能进一步激发大型语言模型(LLMs)的问题求解能力,不仅在数学、编程等专门的推理任务中取得显著突破,在开放式问答等通用任务上也表现出强大潜力。
尽管该领域研究迅猛发展,目前仍亟需一篇系统性的综述,以提供对 TTS 的全面理解。为填补这一空白,我们提出了一个统一的多维框架,从四个核心维度来结构化 TTS 研究:扩展什么、如何扩展、在何处扩展、扩展效果如何。在此分类基础上,我们对方法、应用场景及评估维度进行了深入回顾,并提供了有组织的分解,突出了各类技术在整体 TTS 体系中的独特功能角色。
通过这一分析,我们总结了 TTS 至今的发展脉络,并提出了可供实践部署的操作性指导。此外,我们还识别出多个开放挑战,并就未来的发展方向提供了洞见,包括进一步扩展的可能性、技术本质的澄清、更广泛任务的泛化能力,以及归因机制的探索等。
近年来,大型语言模型(LLMs)(Brown 等, 2020;OpenAI, 2024a)作为通用人工智能(AGI)发展的一个里程碑,展现出颠覆性潜力(Goertzel, 2014;Bubeck 等, 2023)。这些模型通过训练阶段的规模扩展(training-time scaling)——即引入更多的数据和参数进行训练(Kaplan 等, 2020;Hoffmann 等, 2022)——在通用智能方面取得了显著进展。然而,仍存在一个核心挑战:如何在推理阶段最大程度地激发 LLM 内在的智能,以实现其在实际场景中的最大效能(Wei 等, 2022;Ouyang 等, 2022)? 人类认知或许可以提供启发。当面对复杂问题时,人类往往会投入更多思考资源和精力,从而做出更优的决策(Kahneman, 2011, 2003;Evans, 1984)。受到这一认知机制的启发,近期研究提出在推理阶段分配更多计算资源以提升任务表现(Wei 等, 2022;Wang 等, 2023)。值得注意的是,一些研究(Brown 等, 2024b;Wu 等, 2024c)观察到类似于规模法则(scaling laws)的趋势:推理时计算量的增加会带来稳定的性能提升。该类方法统称为测试时扩展(Test-Time Scaling,TTS),其目标是在模型推理过程中逐步激发其智能潜力。 推理模型(如 OpenAI 的 o1 和 DeepSeek-AI 的 R1)的成功进一步激发了人们对 TTS 的兴趣,凸显了其在提升 LLM 推理能力与通用性方面的重要地位。然而,尽管该领域研究日益活跃,目前仍缺乏一个统一、系统的分析框架,用以整合研究成果、比较不同技术方案,或识别出 TTS 中的共性趋势。为填补这一空白,我们提出了一项对 TTS 的全面综述研究,构建了一个层次化且可扩展的分析框架,以系统梳理已有方法、构建研究地图,并指引未来发展方向。 尽管已有工作从特定角度探讨 TTS,例如输入修改与输出验证(Snell 等, 2024),或从“系统 2”AI 与长链式思维(Long Chain-of-Thought, CoT)的视角出发(Li 等, 2025i;Ji 等, 2025;Chen 等, 2025b),但这些研究往往将技术视为孤立实例,或仅聚焦于抽象的推理理想。相比之下,我们的工作强调对 TTS 的细粒度、解构式理解。我们从扩展形式、算法机制、任务领域与性能维度等多个层面,对整个流程进行全面分析。据我们所知,这是首个在多个正交维度上系统性探讨 TTS 的综述工作,为理论研究与实际部署提供了有组织的视角。 我们将 TTS 分解为四个关键维度:扩展什么(What to scale)、如何扩展(How to scale)、在哪扩展(Where to scale)、扩展效果如何(How well to scale)。该框架为未来研究的分类、比较与扩展提供了结构化基础,便于更清晰地理解各方法的贡献。具体来说: * 扩展什么(第2节):指在推理阶段被扩展的对象; * 如何扩展(第3节):指具体的技术手段。我们对各种方法进行分类,并指出一个方法往往涉及多个技术。例如,某些复杂搜索策略可用于生成长链式思维(CoT),然后通过监督微调(SFT)优化模型模仿能力; * 在哪扩展(第4节):涵盖这些技术应用的任务与数据集; * 扩展效果如何(第5节):则聚焦于评估 TTS 方法的不同性能归因。
此外,我们还在每个维度下引入细分子类别,并系统地将代表性研究映射到相应框架中,以突出其技术贡献与权衡点(第6节)。基于上述结构性分析,我们提炼出 TTS 的主要发展趋势,并提供面向现实应用的实用指导(第7节)。最后,我们在多维分类体系基础上识别出若干持续存在的挑战,并指出未来的研究方向(第8节),包括:推动更强的测试时可扩展性、澄清不同方法背后的本质机制、拓展至更广泛的下游任务,以及从效率等更多维度优化 TTS 方法。 我们的三项核心贡献如下:
统一的多维分类体系:提出由“扩展什么、如何扩展、在哪扩展、扩展效果如何”四轴构成的分类法,支持 TTS 方法的结构化归类、对比与扩展。
系统文献梳理与实用分析:基于上述框架,我们全面审视 TTS 研究图谱,剖析代表性方法,并提出可指导实际部署的应用指南。
挑战、洞见与未来方向:我们从组织化视角出发,揭示了从规模扩展到本质澄清等多个关键挑战,并指出可推动未来进展的研究方向。我们的统一框架还帮助将这些开放问题与具体维度对应起来,以实现更有针对性的研究与技术突破。
我们计划持续更新该分类体系,以反映 TTS 领域的最新进展,并为未来研究提供一个动态演进的基础平台。