随着深度学习和自然语言处理技术的进步, 大语言模型(Large language models, LLMs)展现出巨大潜力. 尽管如此, 它们在处理复杂任务时仍存在局限性, 特别是在任务需要结合规划及外部工具调用的场合. 面向这一挑战, 提出国内首个以军事游戏为背景的中文的复杂任务规划与执行数据集(Complex task planning and execution dataset, CTPaE), 以及一个基于LLMs的自主复杂任务规划 (Complex task planning, CTP) 处理框架AutoPlan. 该框架可以对复杂任务进行自主规划得到元任务序列, 并使用递进式ReAct提示 (Progressive ReAct prompting,PRP) 方法对已规划的元任务逐步执行. 该框架的有效性通过在CTPaE数据集上的实验及与其他经典算法的比较分析得到了验证. 项目地址: https://github.com/LDLINGLINGLING/AutoPlan.
大语言模型(Large language models, LLMs)凭借其丰富的知识储备和强大的推理能力, 在自然语言理解和交互式知识查询等任务展现出令人瞩目的效果[1]. 然而, 大模型常面临幻觉输出、知识更新滞后以及领域知识理解不足等问题, 这些挑战影响了其在信息真实性、时效性和逻辑一致性等方面的可靠性[2]. 随着上下文学习(In-context learning)[3]、思维链(Chain-of-thoughts)[4]以及外部资源注入[5]等方法的应用, 大模型在逻辑推理和复杂任务分析方面取得了巨大进步[2]. 工具接口的调用是大模型的典型推理应用之一, 典型的应用包括网络搜索[6]、计算器调用[7]、数据库查询[8]以及数学问题求解[9]等. 这些应用可以弥补大模型在特定领域任务上的不足, 释放其在解决复杂任务上的潜力, 使系统更精准地理解和执行用户输入, 实现用户与系统之间更加自然、便捷的交互, 在中台调度[10-11]、具身智能[12]、军事模拟仿真[13]和平行智能[14]等领域具有广阔的应用前景.
为了指导大模型有效利用这些工具接口, 当前的研究通过在上下文中加入工具使用的示例来引导大模型[15], 或者进行微调来优化大模型在工具使用上的性能[7, 16]. 例如, Toolformer[7]采用自监督的方式来微调大模型, 使其能够获得调用API的能力, 在单步工具接口调用任务上取得了突破. 但实际应用往往需要进行连续多步工具调用, 例如在指挥控制场景中, 计算与目标位置的距离这一基础任务涉及到三个步骤, 即, 1)获取当前自身的位置; 2)获取目标的位置; 3)计算两个坐标之间的距离. 虽然详细的指令能更好地引导模型实现任务目标, 但人类往往倾向于提供粗粒度、高层次的指令. 在实际情况中, 指挥员通常会直接下达计算距离的命令, 而不会给出具体步骤, 这就需要大模型在理解上下文并且对该任务进行规划后, 调用相应的接口来执行. ToolLLM[17]使用深度优先搜索策略, 边规划边执行指令. TPTU[8]提出基于任务规划和工具调用的分步处理思路, 提升模型应对复杂任务的能力. 然而, 现有的模型在这种高层次指令的任务规划过程中, 经常出现中间步骤缺失、重复、突然中断等不连贯的问题, 主要原因在于: 1)由于工具类型和应用领域等差异, 现有的大模型仅靠提示学习或者思维链方法直接推理输出结果难以有效地泛化到新的工具、任务以及应用领域; 2)具备单步工具调用和执行能力的模型在多步调用的过程中, 存在中途模型遗忘或混淆当前应执行的任务以及无法对历史的运算结果进行整合输出最终答案的问题.
为解决上述问题, 本文提出基于大语言模型的复杂任务自主规划处理框架AutoPlan, 整体框架如图1所示. 具体来说, AutoPlan将一个复杂任务分成两个阶段, 先通过一个复杂任务规划(Complex task planning, CTP)模型对复杂任务进行规划, 得到一个元任务序列. 然后再利用递进式ReAct提示(Progressive ReAct prompting, PRP)模型执行元任务序列, 并输出最终结果, 从而实现对复杂指令的自主规划处理. 为验证上述方法的可行性, 本文构建全新的复杂任务规划与执行数据集(Complex task planning and execution dataset, CTPaE), 旨在为复杂任务规划与执行研究提供一个测试基准, 填补该领域的研究空白. CTPaE的构建经历模板构建、自动拆解和人工评估三个步骤, 以军事战略游戏为背景, 具备多样的任务类型和工具种类. 总结来看, 本文的主要贡献在于: 1) 提出全新的复杂任务规划与执行数据集; 2) 提出基于大模型的自动规划和工具调用框架AutoPlan, 利用先进行任务规划后执行的思路, 并且设计CTP模型和PRP模型来有效解决复杂任务带来的挑战; 3) 与多个经典算法进行对比实验, 结果证明了CTPaE的挑战性以及本文提出方法的有效性. 此外, AutoPlan框架还具有广泛的应用前景, 例如在平行智能[18]场景中, AutoPlan可以赋能数字人使其具备独立解决问题的能力以及赋能机器人来协助人类完成各类任务, 执行人机交互、任务协调和计算实验等功能, 显著扩展了原始解决方案的能力范围[19]. 此外, 将AutoPlan框架与去中心化自治组织(Decentralized autonomous organizations and decentralized autonomous operations, DAOs)[20]相结合, 可以实现框架的去中心化、自主化、组织化和有序化, 极大地提高人机协作效率以及任务完成质量.