大规模语言模型的规划能力
近年来,大规模语言模型(LLMs)的规划能力受到了越来越多的关注,原因在于它们在多步骤推理方面的显著能力,以及在多个领域中广泛的泛化能力。尽管一些研究人员强调LLMs在执行复杂规划任务方面的潜力,另一些人则指出它们在处理长时间跨度推理的复杂性时存在显著的局限性。本调查深入研究了现有的LLMs在自动规划中的应用,详细分析了它们的成功和不足之处。我们展示了,尽管LLMs因其局限性不适合单独作为规划器,但当与其他方法结合时,它们仍然为增强规划应用提供了巨大的机会。因此,我们提倡一种平衡的方法,结合LLMs固有的灵活性和广泛知识,以及传统规划方法的严谨性和成本效益。 规划是指制定一系列行动以实现特定目标的过程,是智能行为的基石。这一认知能力使得无论是人类还是人工智能体,都能够在复杂的环境中导航,适应变化的情境,并预测未来事件。意识到这一技能对智能行为的重要性,自动化规划自人工智能领域诞生以来便成为一项基础任务,发挥着重要作用,帮助系统推理可能的行动路径、优化决策过程,并在广泛的应用场景中高效地实现期望的结果。 在这一背景下,大规模语言模型(LLMs)在规划中的作用近年来受到了越来越多的关注,尽管它们的局限性仍然是一个重要的讨论话题。[Wei et al., 2022a] 提出的“涌现”能力最初激发了人们对LLMs作为独立规划器潜力的热情,一些方法展现出了令人印象深刻的规划能力[Yao et al., 2023a; Hao et al., 2023]。然而,随后的研究对这些声明进行了审视,揭示了其中的主要不足之处[Stechly et al., 2024a; Verma et al., 2024]。特别地,尽管LLM代理在短时间跨度的高层次规划中显示出一定的前景,但在长时间跨度的场景中,它们往往无法产生正确的规划,其性能可能显著下降[Chen et al., 2024a; Aghzal et al., 2024b],使得它们在实际应用中变得不切实际和不可靠。此外,即便在成功的情况下,它们生成的规划成本也可能非常糟糕,而这一局限性往往被忽视,尤其是在文献中提出LLMs用于规划相关任务时。 尽管存在这些局限性,LLMs通过大规模预训练所蕴含的一般领域知识为增强传统规划系统的灵活性提供了宝贵的机会。例如,它们从自然语言中提取和解释相关上下文信息的能力,使得这些模型能够作为接口,将文本转化为结构化的形式化表示,进而与符号规划器无缝集成[Chen et al., 2024b; Zhang et al., 2024]。此外,LLMs还有潜力为规划系统提供常识推理,弥合传统规划器在某些领域知识上的空白,而不需要大量的手动工程工作[Zhang et al., 2023]。进一步地,作为基于大量人类生成数据训练的模型,LLMs能够隐式编码人类的风格化和定性偏好。因此,LLMs也能作为评估器,基于定性和风格化标准评估规划,这些标准通常难以明确表达[Guan et al., 2024]。 在本研究中,我们对LLMs在自动规划中的整合进行文献综述,重点讨论长时间跨度的高层次规划应用。虽然我们的工作主要集中在LLMs上,但我们调查的研究及其论点也适用于增强了视觉编码器的LLMs,即视觉语言模型(VLMs)。我们比较了使用LLMs作为规划器和将LLMs整合到传统规划框架中的研究现状,并认为后者提供了更为灵活和有前景的解决方案。尽管以往的综述已探讨了这一主题,但它们要么关注的是更广泛的LLM自动化代理[Huang et al., 2024b; Wang et al., 2024a],要么缺乏对LLMs在规划中多种应用及其局限性的系统性和深入讨论[Li et al., 2024b]。通过将讨论范围聚焦于长时间跨度规划,本综述提供了对LLMs在规划中的应用、未来研究潜力以及可能的陷阱的更深入探讨。