针对多智能体编队控制问题, 研究了基于 DDQN 深度强化学习算法的多无人车系统的编队控制器, 采用 一致性控制与伴随位形相结合的方法对编队控制问题进行建模和简化. 建立了基于相对距离和速度的状态空 间, 使得控制输入不依赖于全局信息, 然后设计了基于九大典型运动方向的动作空间, 并设计了基于相对距离 和相对速度的奖励函数, 基于以上参数进行了神经网络架构的设计和网络训练与运动仿真环境的搭建, 并成功 训练出有效的控制器. 该控制器可以直接应用于带有非完整约束的欠驱动无人车的编队任务, 且控制器的网络 训练只需要运动数据而不需要精确模型, 是一种无模型控制方法. 最后, 通过大量不同场景下的运动仿真验证 了控制器的有效性, 包括多队形、多位置、多轨迹仿真以及时变队形、时变通讯和通讯故障等特殊情况的检 验, 该控制器在所有场景中均能有效完成控制任务. 最后优化了编队起始阶段的策略, 定义了等候条件与启动 条件, 有效节约了控制的能耗, 利用运动仿真和对比分析验证了优化作用. 21 世纪以来, 随着半导体技术、车辆技术、控 制科学、人工智能和通信技术的不断发展, 无人机 和无人车等新颖的运载设备逐渐从最初的创意设计 变成了我们日常生活中的一部分. 随着工业发展中 不断升级的制造需求和对更先进的生产力需求, 无 人车和无人机等工具也从一个传统的运载体向智能 体的方向发展, 其智能化程度正在飞快发展. 然而, 由于现代工程的复杂性和多样性, 许多任务很难通 过单个智能体完成, 如大型设备的搬运和组装、大 规模搜索与识别、复杂矿洞的数字建模, 以及多样 性的军事作战任务等. 在许多这样的场景中, 多智能 体的协作往往能比进行单一智能体的功能扩充带来 更好的效果, 例如节省复杂系统的研发成本, 减少对 硬件和软件复杂性的要求[1] . 一个典型的例子就是 在空战中不同种类飞机的配合, 其协同作战效率和 能力远大于将所有功能集成于单一飞机[2] . 关于多智能体协同控制问题, 目前主要的研究 方向有一致性控制[3-4]、编队控制[5] 和编队-合围控 制[6] 等. 多智能体协同控制的控制器设计方法目前 主要有领导-跟随法[7-8]、虚拟结构法[9]、基于行为 法[10] 及基于一致性理论的方法[11-12] 等. 但现有的控 制器设计方法大多是基于精确的线性模型, 不能很 好地刻画地面轮式车辆等运载体的动力学行为. 无 人车的动力学行为具有较强的非线性, 且存在非完 整约束和欠驱动问题, 传统的基于线性系统理论设 计的控制器有时候在实际无人车控制中效果欠佳. 况且, 当模型具有不确定性时基于精确模型的控制 方法鲁棒性较差. 而机器学习的方法具有强大的拟 合能力, 对模型的要求度低, 已广泛应用在各种力学 问题当中[13] . 相较于基于精确模型设计控制器的方 法, 强化学习的基本思路不再是人为地利用多智能 体的精确模型设计各种形式的控制器, 而是利用机 器学习的方法建立高维状态空间到动作空间的映 射, 相当于一个黑箱控制器模型, 是一种较为新颖的 控制器设计方式[14] . 结合了深度神经网络的深度强 化学习在特征表示方面具有非常强大的能力, 该能 力在构建状态-动作映射时发挥了重要作用, 在非线 性动力学与控制问题以及欠驱动控制问题中具有较 好的应用价值[15] . 况且, 模型的训练只需要智能体的 输入输出数据, 而不需要系统的精确模型, 本质上是 一种数据驱动的无模型控制方法, 在模型参数未 知、模型存在扰动和摄动时仍然可以学习到控制器[16] . 传统的基于模型的控制方法与基于深度强化学习的 控制方法的优缺点对比如表 1 所示. Bae 等[17] 结合 CNN 卷积神经网络和强化学习 算法解决了多机器人的路径规划问题. Zhu 等[18] 利 用 MADDPG 算法解决多机器人运动避障问题, 并 加入了优先经验回放机制来更好地利用强化学习随 机动作储存的经验数据, 但其使用的是质点运动学 模型, 并不能很好地刻画真实的多智能体运动. Hung 等[19] 利用 Q-learning 的强化学习算法, 结合无人机 运动学模型, 解决了领导-跟随问题. 李波等[20] 利用 MADDPG 算法解决无人机群在威胁区域中的“避 险”飞行问题. 张海峰等[21] 针对非线性多智能体控 制问题, 利用 HJB 方程来设计控制律, 并利用强化 学习的方法来求解 HJB 方程进而得到最优控制器. 赵启等[22] 利用 D3QN 深度强化学习算法和无人机 运动学模型来研究长机-僚机编队的横向距离保持 问题, 后续又采用 DDQN 深度强化学习算法研究长 机-僚机编队中的横向距离保持和纵向速度跟踪问 题[23] . 马晓帆[24] 主要研究了商用车队的编队道路运 行问题, 构建了六自由度商用车动力学模型, 利用 TD3 算法来实现车队的纵向编队运行. 相晓嘉等[25] 提出了 ID3QN 算法来研究固定翼无人机的定高长机-僚机编队问题, ID3QN 算法是在 D3QN 的基础上 增加“模仿”行为, 旨在帮助僚机更快速地取得跟踪 长机效果较好的经验数据. 以上文献主要基于运动 学模型进行控制器设计, 但实际的动力学系统往往 是二阶系统, 由于惯性的存在, 速度控制必然存在一 定时延, 力控制是最直接而准确的控制方式, 在实际 工程问题中具有更好的应用价值. 本文旨在利用深度强化学习技术设计多无人车 系统的编队控制器, 使多无人车系统形成指定的期 望队形, 并对控制器进行策略优化. 本文的创新点包 括以下三个方面. 第一, 基于 DDQN 深度强化学习 算法, 结合一致性理论和伴随位形的思想设计多无 人车系统的编队控制器, 该控制器在无精确模型只 有运动数据时也可以实现编队控制任务, 降低了对 模型的依赖性, 相比传统的基于模型设计的控制器, 本文给出的控制器鲁棒性更强; 第二, 相较于目前大 多数文献基于运动学模型设计控制器, 本文直接基 于动力学模型设计力控制器, 更具有实际意义; 第 三, 本文创新性地提出了编队起始阶段的等候与启 动条件, 进行了策略优化, 仿真显示优化后的策略有 效节省了编队所需的能量.

成为VIP会员查看完整内容
40

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
基于大模型的态势认知智能体
专知会员服务
165+阅读 · 4月7日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
40+阅读 · 3月12日
无人集群协同控制策略及军事应用
专知会员服务
99+阅读 · 2023年11月13日
基于多智能体博弈强化学习的无人机智能攻击策略生成模型
基于多智能体强化学习的协同目标分配
专知会员服务
122+阅读 · 2023年9月5日
多智能体系统带宽分配及预测云控制
专知会员服务
16+阅读 · 2023年7月9日
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
战术先验知识启发的多智能体双层强化学习
专知会员服务
106+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
142+阅读 · 2023年5月4日
面向任务的无人机集群自主决策技术
专知会员服务
175+阅读 · 2023年4月15日
「基于通信的多智能体强化学习」 进展综述
无人预警机系统架构及关键技术分析
专知
12+阅读 · 2022年8月6日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
16+阅读 · 2017年6月13日
机器学习实现金融风控
凡人机器学习
15+阅读 · 2017年6月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于大模型的态势认知智能体
专知会员服务
165+阅读 · 4月7日
面向复杂多任务的异构无人机集群分组调配
专知会员服务
40+阅读 · 3月12日
无人集群协同控制策略及军事应用
专知会员服务
99+阅读 · 2023年11月13日
基于多智能体博弈强化学习的无人机智能攻击策略生成模型
基于多智能体强化学习的协同目标分配
专知会员服务
122+阅读 · 2023年9月5日
多智能体系统带宽分配及预测云控制
专知会员服务
16+阅读 · 2023年7月9日
基于深度强化学习算法的无人机智能规避决策
专知会员服务
80+阅读 · 2023年6月27日
战术先验知识启发的多智能体双层强化学习
专知会员服务
106+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
142+阅读 · 2023年5月4日
面向任务的无人机集群自主决策技术
专知会员服务
175+阅读 · 2023年4月15日
相关资讯
「基于通信的多智能体强化学习」 进展综述
无人预警机系统架构及关键技术分析
专知
12+阅读 · 2022年8月6日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
16+阅读 · 2017年6月13日
机器学习实现金融风控
凡人机器学习
15+阅读 · 2017年6月1日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员