大型语言模型(LLMs)在规划生成方面展现出巨大潜力,能够将初始世界状态转化为目标状态。大量研究已探索了 LLM 在各类规划任务中的应用,如网页导航、旅行规划以及数据库查询等。然而,这些系统多数为特定任务量身定制,导致难以进行统一比较,也难以评估在新任务中采用何种方法最为合适。此外,目前在评估标准方面尚缺乏明确且一致的规范。
本综述旨在对现有的 LLM 规划器进行系统性梳理与分析,以填补上述空白。我们在 Kartam 和 Wilkins(1990)奠定的基础工作上,围绕六个关键性能指标展开研究:完备性(completeness)、可执行性(executability)、最优性(optimality)、表示能力(representation)、**泛化能力(generalization)**与 效率(efficiency)。针对每一项指标,我们深入分析了具有代表性的研究工作,评估其优劣与适用场景。
此外,本文还明确指出了未来研究的关键方向,因此不仅为希望利用 LLM 规划技术支持**智能体工作流(agentic workflows)**的从业者提供了实用参考,也为领域新入者提供了系统性的入门指南。