高效人类团队通过智能通信与协调策略实现协同效用最大化。受此启发,本研究致力于开发多机器人系统智能协作的计算方法,结合经典模型驱动控制规划与数据驱动技术(如多智能体强化学习MARL、示范学习LfD),推动机器人群体涌现协同行为。
研究首先采用模型驱动方法解决多机器人系统在不确定性下的协调控制与规划问题,重点探究环境模型在规划决策中的高效整合机制。通过设计集中式与分布式协调框架(涵盖控制输入与高层规划层级),构建基于环境模型的多机器人协同体系。创新性成果包括:开发安全关键场景下的人本化多机器人网络协调控制算法,实现主动状态估计支撑的协同覆盖规划与性能概率性保障;进一步扩展方法应对机器人异质性挑战,构建分层协调框架,使感知型与操作型机器人组成的复合团队能在空基森林灭火等复杂任务中高效协作。
模型驱动方法虽能提供性能与稳定性保障,但对模型精度与启发式算法质量敏感。为此,研究引入数据驱动与机器学习方法,探索群体协作行为的涌现机制。设计基于图结构的通信模型架构,实现异构机器人团队的高效多样化协同;受人类心智理论启发,开发迭代式深度决策理性模型,优化去中心化协作中的行动选择机制。
近年来,尽管MARL广泛应用于多机器人任务优化,但强化学习仍存在奖励函数设计困难与高样本复杂度等局限。因此,精确建模人类策略行为愈发重要。同时,随着多机器人系统普及,确保机器人行为价值与人类伦理对齐至关重要。本研究提出多智能体示范学习框架MixTURE,通过混合主动多智能体学徒学习,使机器人团队能够从人类示范中学习协作策略,同步实现端到端自主通信协调。该框架兼具示范学习优势,显著降低人类示范数据需求与时间成本,提升系统可用性量表(SUS)评分与团队协作效能,为多机器人系统人机协同开辟新路径。
本研究核心论点在于:通过赋能机器人团队高效通信与行动规划推理能力,可显著提升群体协作效能。本论文通过以下创新成果验证该主张:
• 无人机团队人本化动态环境主动感知协调控制框架:基于卡尔曼不确定性残差传播与加权多智能体网络控制,构建双准则目标函数,实现无人机群主动推断野火传播参数并监测火势演化[5]。
• 多机器人网络通信容错自适应控制架构:通过模型参考自适应控制架构,设计集中式协调控制框架,使多机器人团队在通信网络断续环境下仍能达成协同共识[6]。
• 服务质量保障型多无人机动态区域协同覆盖规划:针对空基野火监测需求,提出概率性能保障的预测式协同覆盖框架,支持无人机群推断潜在火势动态,实现高危环境下的长时程协调[7,8]。
• 异构机器人分层协调框架:基于多智能体部分可观测半马尔可夫决策过程(MA-POSMDP)构建MA-SARTSA算法,使智能体在动态目标数量未知环境中学习协同监控策略,支持宏动作驱动的异步多智能体决策[9]。
• 高效多样化通信模型MARL框架:提出异构策略网络(HetNet),使异质机器人通过二进制中间语言实现零基础自发通信学习与协作[10]。
• 有限理性下决策优化MARL框架:受认知层级理论k级推理机制启发,开发信息策略梯度(InfoPG)方法,支持有限理性多智能体进行迭代决策优化[11,12]。
• 人机协同策略学习MA-LfD框架:构建MixTURE混合主动学徒学习框架,使机器人团队无需人工标注数据即可学习人类专家协作策略,同步实现端到端自主通信协调。
本论文结构如下:第2章系统梳理相关领域文献;第3章阐述理论基础与背景知识,重点介绍基于模型的节点级多机器人协调方法[5,6]及其在无人机动态区域覆盖中的应用;第4章扩展至高危时效敏感场景,提出性能保障型模型预测方法[7,8]与数据驱动方案[9],解决资源受限异构无人机群的环境不确定性协调问题;第6章提出端到端多智能体协同通信策略学习方法[13,10];第7章通过新型MARL架构实现协作机器人团队的迭代推理与决策理性化[12];第8章构建MA-LfD框架,实现人类领域知识高效迁移与协作策略直接学习。