基于深度强化学习的多无人车系统编队控制

针对多智能体编队控制问题, 研究了基于 DDQN 深度强化学习算法的多无人车系统的编队控制器, 采用一致性控制与伴随位形相结合的方法对编队控制问题进行建模和简化. 建立了基于相对距离和速度的状态空间, 使得控制输入不依赖于全局信息, 然后设计了基于九大典型运动方向的动作空间, 并设计了基于相对距离和相对速度的奖励函数, 基于以上参数进行了神经网络架构的设计和网络训练与运动仿真环境的搭建, 并成功训练出有效的控制器. 该控制器可以直接应用于带有非完整约束的欠驱动无人车的编队任务, 且控制器的网络训练只需要运动数据而不需要精确模型, 是一种无模型控制方法. 最后, 通过大量不同场景下的运动仿真验证了控制器的有效性, 包括多队形、多位置、多轨迹仿真以及时变队形、时变通讯和通讯故障等特殊情况的检验, 该控制器在所有场景中均能有效完成控制任务. 最后优化了编队起始阶段的策略, 定义了等候条件与启动条件, 有效节约了控制的能耗, 利用运动仿真和对比分析验证了优化作用. 21 世纪以来, 随着半导体技术、车辆技术、控制科学、人工智能和通信技术的不断发展, 无人机和无人车等新颖的运载设备逐渐从最初的创意设计变成了我们日常生活中的一部分. 随着工业发展中不断升级的制造需求和对更先进的生产力需求, 无人车和无人机等工具也从一个传统的运载体向智能体的方向发展, 其智能化程度正在飞快发展. 然而, 由于现代工程的复杂性和多样性, 许多任务很难通过单个智能体完成, 如大型设备的搬运和组装、大规模搜索与识别、复杂矿洞的数字建模, 以及多样性的军事作战任务等. 在许多这样的场景中, 多智能体的协作往往能比进行单一智能体的功能扩充带来更好的效果, 例如节省复杂系统的研发成本, 减少对硬件和软件复杂性的要求[1] . 一个典型的例子就是在空战中不同种类飞机的配合, 其协同作战效率和能力远大于将所有功能集成于单一飞机[2] . 关于多智能体协同控制问题, 目前主要的研究方向有一致性控制[3-4]、编队控制[5] 和编队-合围控制[6] 等. 多智能体协同控制的控制器设计方法目前主要有领导-跟随法[7-8]、虚拟结构法[9]、基于行为法[10] 及基于一致性理论的方法[11-12] 等. 但现有的控制器设计方法大多是基于精确的线性模型, 不能很好地刻画地面轮式车辆等运载体的动力学行为. 无人车的动力学行为具有较强的非线性, 且存在非完整约束和欠驱动问题, 传统的基于线性系统理论设计的控制器有时候在实际无人车控制中效果欠佳. 况且, 当模型具有不确定性时基于精确模型的控制方法鲁棒性较差. 而机器学习的方法具有强大的拟合能力, 对模型的要求度低, 已广泛应用在各种力学问题当中[13] . 相较于基于精确模型设计控制器的方法, 强化学习的基本思路不再是人为地利用多智能体的精确模型设计各种形式的控制器, 而是利用机器学习的方法建立高维状态空间到动作空间的映射, 相当于一个黑箱控制器模型, 是一种较为新颖的控制器设计方式[14] . 结合了深度神经网络的深度强化学习在特征表示方面具有非常强大的能力, 该能力在构建状态-动作映射时发挥了重要作用, 在非线性动力学与控制问题以及欠驱动控制问题中具有较好的应用价值[15] . 况且, 模型的训练只需要智能体的输入输出数据, 而不需要系统的精确模型, 本质上是一种数据驱动的无模型控制方法, 在模型参数未知、模型存在扰动和摄动时仍然可以学习到控制器[16] . 传统的基于模型的控制方法与基于深度强化学习的控制方法的优缺点对比如表 1 所示. Bae 等[17] 结合 CNN 卷积神经网络和强化学习算法解决了多机器人的路径规划问题. Zhu 等[18] 利用 MADDPG 算法解决多机器人运动避障问题, 并加入了优先经验回放机制来更好地利用强化学习随机动作储存的经验数据, 但其使用的是质点运动学模型, 并不能很好地刻画真实的多智能体运动. Hung 等[19] 利用 Q-learning 的强化学习算法, 结合无人机运动学模型, 解决了领导-跟随问题. 李波等[20] 利用 MADDPG 算法解决无人机群在威胁区域中的“避险”飞行问题. 张海峰等[21] 针对非线性多智能体控制问题, 利用 HJB 方程来设计控制律, 并利用强化学习的方法来求解 HJB 方程进而得到最优控制器. 赵启等[22] 利用 D3QN 深度强化学习算法和无人机运动学模型来研究长机-僚机编队的横向距离保持问题, 后续又采用 DDQN 深度强化学习算法研究长机-僚机编队中的横向距离保持和纵向速度跟踪问题[23] . 马晓帆[24] 主要研究了商用车队的编队道路运行问题, 构建了六自由度商用车动力学模型, 利用 TD3 算法来实现车队的纵向编队运行. 相晓嘉等[25] 提出了 ID3QN 算法来研究固定翼无人机的定高长机-僚机编队问题, ID3QN 算法是在 D3QN 的基础上增加“模仿”行为, 旨在帮助僚机更快速地取得跟踪长机效果较好的经验数据. 以上文献主要基于运动学模型进行控制器设计, 但实际的动力学系统往往是二阶系统, 由于惯性的存在, 速度控制必然存在一定时延, 力控制是最直接而准确的控制方式, 在实际工程问题中具有更好的应用价值. 本文旨在利用深度强化学习技术设计多无人车系统的编队控制器, 使多无人车系统形成指定的期望队形, 并对控制器进行策略优化. 本文的创新点包括以下三个方面. 第一, 基于 DDQN 深度强化学习算法, 结合一致性理论和伴随位形的思想设计多无人车系统的编队控制器, 该控制器在无精确模型只有运动数据时也可以实现编队控制任务, 降低了对模型的依赖性, 相比传统的基于模型设计的控制器, 本文给出的控制器鲁棒性更强; 第二, 相较于目前大多数文献基于运动学模型设计控制器, 本文直接基于动力学模型设计力控制器, 更具有实际意义; 第三, 本文创新性地提出了编队起始阶段的等候与启动条件, 进行了策略优化, 仿真显示优化后的策略有效节省了编队所需的能量.

成为VIP会员查看完整内容

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

基于大模型的态势认知智能体

专知会员服务

190+阅读 · 2024年4月7日

面向复杂多任务的异构无人机集群分组调配

专知会员服务

42+阅读 · 2024年3月12日

无人集群协同控制策略及军事应用

专知会员服务

111+阅读 · 2023年11月13日

基于多智能体博弈强化学习的无人机智能攻击策略生成模型

专知会员服务

106+阅读 · 2023年10月16日