大规模语言模型的规划能力

近年来,大规模语言模型(LLMs)的规划能力受到了越来越多的关注,原因在于它们在多步骤推理方面的显著能力,以及在多个领域中广泛的泛化能力。尽管一些研究人员强调LLMs在执行复杂规划任务方面的潜力,另一些人则指出它们在处理长时间跨度推理的复杂性时存在显著的局限性。本调查深入研究了现有的LLMs在自动规划中的应用,详细分析了它们的成功和不足之处。我们展示了,尽管LLMs因其局限性不适合单独作为规划器,但当与其他方法结合时,它们仍然为增强规划应用提供了巨大的机会。因此,我们提倡一种平衡的方法,结合LLMs固有的灵活性和广泛知识,以及传统规划方法的严谨性和成本效益。 规划是指制定一系列行动以实现特定目标的过程,是智能行为的基石。这一认知能力使得无论是人类还是人工智能体,都能够在复杂的环境中导航,适应变化的情境,并预测未来事件。意识到这一技能对智能行为的重要性,自动化规划自人工智能领域诞生以来便成为一项基础任务,发挥着重要作用,帮助系统推理可能的行动路径、优化决策过程,并在广泛的应用场景中高效地实现期望的结果。 在这一背景下,大规模语言模型(LLMs)在规划中的作用近年来受到了越来越多的关注,尽管它们的局限性仍然是一个重要的讨论话题。[Wei et al., 2022a] 提出的“涌现”能力最初激发了人们对LLMs作为独立规划器潜力的热情,一些方法展现出了令人印象深刻的规划能力[Yao et al., 2023a; Hao et al., 2023]。然而,随后的研究对这些声明进行了审视,揭示了其中的主要不足之处[Stechly et al., 2024a; Verma et al., 2024]。特别地,尽管LLM代理在短时间跨度的高层次规划中显示出一定的前景,但在长时间跨度的场景中,它们往往无法产生正确的规划,其性能可能显著下降[Chen et al., 2024a; Aghzal et al., 2024b],使得它们在实际应用中变得不切实际和不可靠。此外,即便在成功的情况下,它们生成的规划成本也可能非常糟糕,而这一局限性往往被忽视,尤其是在文献中提出LLMs用于规划相关任务时。 尽管存在这些局限性,LLMs通过大规模预训练所蕴含的一般领域知识为增强传统规划系统的灵活性提供了宝贵的机会。例如,它们从自然语言中提取和解释相关上下文信息的能力,使得这些模型能够作为接口,将文本转化为结构化的形式化表示,进而与符号规划器无缝集成[Chen et al., 2024b; Zhang et al., 2024]。此外,LLMs还有潜力为规划系统提供常识推理,弥合传统规划器在某些领域知识上的空白,而不需要大量的手动工程工作[Zhang et al., 2023]。进一步地,作为基于大量人类生成数据训练的模型,LLMs能够隐式编码人类的风格化和定性偏好。因此,LLMs也能作为评估器,基于定性和风格化标准评估规划,这些标准通常难以明确表达[Guan et al., 2024]。 在本研究中,我们对LLMs在自动规划中的整合进行文献综述,重点讨论长时间跨度的高层次规划应用。虽然我们的工作主要集中在LLMs上,但我们调查的研究及其论点也适用于增强了视觉编码器的LLMs,即视觉语言模型(VLMs)。我们比较了使用LLMs作为规划器和将LLMs整合到传统规划框架中的研究现状,并认为后者提供了更为灵活和有前景的解决方案。尽管以往的综述已探讨了这一主题,但它们要么关注的是更广泛的LLM自动化代理[Huang et al., 2024b; Wang et al., 2024a],要么缺乏对LLMs在规划中多种应用及其局限性的系统性和深入讨论[Li et al., 2024b]。通过将讨论范围聚焦于长时间跨度规划,本综述提供了对LLMs在规划中的应用、未来研究潜力以及可能的陷阱的更深入探讨。

成为VIP会员查看完整内容
2

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
35+阅读 · 2024年6月9日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
79+阅读 · 2024年5月3日
大型语言模型的高效提示方法综述
专知会员服务
71+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
42+阅读 · 2024年2月14日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
114+阅读 · 2024年2月6日
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
最新《图嵌入组合优化》综述论文,40页pdf
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
20+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
无人机集群、蜂群与蜂群算法
无人机
89+阅读 · 2018年9月25日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
22+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
35+阅读 · 2024年6月9日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
79+阅读 · 2024年5月3日
大型语言模型的高效提示方法综述
专知会员服务
71+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
42+阅读 · 2024年2月14日
基于大型语言模型的多智能体:进展与挑战综述
专知会员服务
114+阅读 · 2024年2月6日
相关资讯
数据受限条件下的多模态处理技术综述
专知
17+阅读 · 2022年7月16日
最新《图嵌入组合优化》综述论文,40页pdf
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
20+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
无人机集群、蜂群与蜂群算法
无人机
89+阅读 · 2018年9月25日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
22+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
微信扫码咨询专知VIP会员