被大型语言模型(LLM)在通用网络语料库上培训所表现出来的新兴推理能力所吸引,我们在本文中着手研究了它们的规划能力。我们的目标是评估(1)LLM在常识性规划任务中自主生成规划的有效性;以及(2)LLM作为其他代理(AI规划器)在其规划任务中的启发性指导的潜力。我们通过生成一系列与国际规划竞赛中所用领域相似的实例进行了系统性的研究,并以两种不同的模式评估LLM:自主模式和启发式模式。我们的研究发现,LLM自主生成可执行规划的能力相当有限,最优模型(GPT-4)在各个领域的平均成功率约为12%。然而,启发式模式下的结果更加有前景。在启发式模式下,我们证明了LLM生成的规划能够改善底层健全规划器的搜索过程,并且还表明,外部验证器可以帮助对生成的规划提供反馈,并追溯提示LLM以更好地生成规划。

成为VIP会员查看完整内容
46

相关内容

【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
12+阅读 · 2022年12月14日
【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策
专知会员服务
56+阅读 · 2021年5月27日
【2022新书】Python数学逻辑,285页pdf
专知
12+阅读 · 2022年11月24日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
458+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【AAAI2023】SEPT:迈向可扩展和高效的视觉预训练
专知会员服务
12+阅读 · 2022年12月14日
【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策
专知会员服务
56+阅读 · 2021年5月27日
相关基金
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员