灾难响应、搜救行动及军事任务等多智能体协同作业亟需自动化流程支持行动方案(COA)规划。环境动态变化(雨雪、路障等)可能影响行动方案预期效能,因此需储备任务分配模式多元化的行动方案池。智能体能力差异(含人类操作员与自主系统)既带来实践机遇,也引发规划过程的计算挑战。本文提出创新理论框架与计算体系,用于生成智能体-任务柔性适配场景下的多样化行动方案池。核心在于将任务空间与方案池抽象为图结构以量化多样性。 通过将行动方案构建为集中式多机器人任务分配(MRTA)问题,采用遗传算法实现任务分配(忽略顺序),同步优化方案池多样性及智能体-任务映射的整体适配度。基于策略梯度的图神经网络负责为每个方案执行单智能体任务排序,自适应任务特征最大化完成率。模拟环境测试表明:相较随机游走基线,本方案性能显著提升;任务排序接近最优解;5智能体/100任务规模下生成20个行动方案耗时约50分钟。
图1: 同一任务(含3智能体/10项任务/4类别)的3种候选行动方案示例。各方案中智能体从中心站出发执行差异化任务序列。实心圆点标记任务(颜色代表类别),空心符号圆点标记智能体,连线表征任务序列(边线形态与底图仅为示意)。
移动协作多智能体系统在灾难响应、环境监测、末端物流、城市空中交通(UAM)、农业自动化及军事行动等领域作用关键。此类复杂行动采用军事规划概念"行动方案"(COA)——预先制定人类/载人载具/自主系统执行任务的调度框架。然而因智能体数量庞大、任务空间动态演变及约束条件持续更新,自动化算法规划需求凸显。加之环境可能在规划与执行间期变化,储备多套备选方案尤为必要。每套方案需保障基础任务效能,同时在资源/任务分配及序列层面保持差异性。图1展示10任务/3智能体场景的3种典型方案。
行动方案规划需在临战前快速完成(非长期预规划)以最大化利用实时情报。因此开发自动化规划方法生成多样化方案池势在必行。本文提出理论框架与高效计算体系,针对含空间位置、时限及任务/智能体适配特征的任务空间生成多样化方案池。
实现自动化生成需先解析单方案规划本质。基于多机器人任务分配(MRTA)领域研究,我们将单方案规划建模为集中式MRTA问题。MRTA需在时限、能力与环境约束下优化任务分配,现有方案涵盖启发式、优化技术及学习方法。但生成多样化方案池的复杂度超越传统MRTA范畴:多数研究聚焦多智能体行为空间多样性,而端到端学习因收敛于单一最优解不适用。方案池生成的计算负担仅能通过并行计算部分缓解,且现有方法极少考虑"柔性异构性"——即智能体/任务类型间的适配度差异。
为应对挑战并提升计算效率,本框架GenCOA将问题分解为:
1)分配各方案任务以最大化方案池多样性;
2)优化各方案内单智能体任务序列。
方案间多样性源于资源分配差异,而优化任务序列提升各方案可行性。
具体而言,GenCOA采用遗传算法(GA)最大化子问题(1)的任务分配多样性。为降低计算成本,该GA设计为环境无感知型,避免仿真评估多样性。这需构建新的理论多样性度量指标。因单纯最大化多样性可能导致任务分配失衡(部分方案无法在时限内执行),我们提出平衡多样性指标与方案池智能体任务分配的"适配度"。
针对子问题(2),GenCOA引入图强化学习方法:将各方案中智能体的任务空间抽象为图结构,通过排序最大化任务完成率。该设计受基于强化学习的MRTA研究启发,可泛化至多任务特征并适应任务规模扩展。本研究设定:
i) 二维环境作业(智能体匀速移动);
ii) 多智能体操作属"单任务机器人-单机器人任务-时延分配"类型(SR-ST-TA),每项任务含完成时限;
iii) 智能体具差异化任务适配度(柔性异构性),影响任务耗时;
iv) 环境演变通过行进时间噪声增长或任务点随机断连模拟。
创新贡献:
1)将方案池生成分解为顺序子问题:跨方案任务分配与方案内任务排序;
2)将首子问题构建为免仿真的二元优化问题(GA求解),通过方案池图抽象实现理论多样性评估;
3)将单智能体任务排序建模为马尔可夫决策过程,由策略梯度强化学习训练图神经网络生成动作;
4)验证方法相较随机游走基线及优化排序的效能优势,并分析方案对行进不确定性的敏感度。