以高速机动目标拦截为问题背景,基于深度强化学习提出了一种不依赖目标加速度估计的逆轨拦截最优控制指令生成 方法 ,并通过仿真实验进行了有效性验证。从仿真实验结果看,提出的方法实现了三维空间高速机动目标逆轨拦截并大幅削减了对带有强不确定性目标估计的要求,相比最优控制方法具有更强的适用性。 随着科学技术的不断进步,现代化战争正逐步演化为体系化攻防对抗,作为其中的重要火力打击手段之一,战术弹道导弹[1](tactical ballistic missile, TBM)再入大气层时,通常远高于防御武器的速度,为成功拦截防御带来了一定的困难。

针对以TBM目标为代表的高速机动目标再入速度高、机动能力强的特点,为有效对目标进行打击,需要采用带有较强末端角度约束的逆轨拦截方式。逆轨拦截是指防御武器接近目标时以反目标速度的方向迎击目标。这种打击方式一方面便于导引头截获和稳定跟踪目标,对于提高引战配合效率和战斗部杀伤概率极为有利;另一方面能够通过将导弹引入良好的弹目相对位置,形成良好的拦截态势,削减高速目标机动拉开的防御武器能量需求缺口,降低低速导弹打击高速目标难度,达到更好的作战效果。 目前,已有针对高速目标打击的制导律生成方法问题的大部分研究是围绕比例制导[2-6]、滑模制导[5-6]和最优制导[7-10]等方法进行制导律设计。在这些研究中,研究人员均对弹目交会时刻的期望角度约束进行了考虑,并通过虚拟目标导引[2]、指令反馈[4]、寻优约束条件[7-9, 11-12]等手段对制导过程终点的交会角度限制进行了约束,进而实现在弹目交会时对目标的逆轨拦截,达到较好的打击效果。 上述研究大多从理论分析出发,均显式或隐式地引入了前提假设,从而在其方法的应用上带来了不同程度的限制,特别是对目标与导弹运动能力的限制。例如,部分文献假设打击的目标为固定目标[2, 3, 5]或匀速运动目标[7],或者假设导弹运动速度不变[2-5]。这为所设计的制导律带来了较大的限制约束。文献[5-6]均考虑了对高速机动目标打击问题,但均围绕二维平面内的制导律生成问题开展研究。文献[8-9]在三维空间对高速机动目标的逆轨拦截问题进行了研究,分别采用最优制导与高斯伪谱法进行制导律设计,得到了较好的逆轨拦截效果。然而在制导律设计中,文献[8-9]均引入了目标运动加速度作为设计输入。面向目标机动样式和探测信息均存在不确定性的场景,上述方法对探测与估计部分提出了更高的要求。 近年来,由深度学习[13-14]崛起助推的新一代人工智能技术掀起了新一轮智能化浪潮,相继攻克视频游戏[15]、围棋[16]、星际争霸II[17]等,揭示了其在复杂问题求解方面的巨大潜力,也为解决上述问题的求解带来新的契机。当前,基于深度强化学习的智能制导律生成方法方面已有部分研究[6,18-20],但是,一方面现有研究中较多所采用的拦截导弹模型较为简化,一些研究甚至未考虑气动部分的模型[20-21];另一方面,现有研究也鲜有聚焦于高速目标逆轨拦截问题。 针对此,本文提出一种基于深度强化学习的最优控制律模仿生成方法,以弹目相对运动及导弹自身动力学状态为输入,以模仿最优导弹导引控制(即最优制导)过程为奖励生成函数,借助深度神经网络强非线性拟合能力,构建面向三维空间高速机动目标逆轨拦截的导弹导引控制指令(即制导指令)生成。该方法具有如下特点:①可实现在三维空间中对目标的逆轨拦截;②可实现对高速机动目标的逆轨拦截;③制导指令生成过程不再需要以目标加速度作为决策输入,从而大幅削减了对带有强不确定性目标估计的要求,具有更好的适用性。

成为VIP会员查看完整内容
33

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于语言模型增强的中文关系抽取方法
专知会员服务
56+阅读 · 2023年9月18日
基于知识图谱的仿真想定智能生成方法
专知会员服务
102+阅读 · 2023年6月4日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
152+阅读 · 2023年5月4日
专知会员服务
36+阅读 · 2021年8月27日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
42+阅读 · 2021年5月6日
专知会员服务
124+阅读 · 2021年4月29日
基于深度神经网络的少样本学习综述
专知会员服务
172+阅读 · 2020年4月22日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
162+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
423+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2023年3月26日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于语言模型增强的中文关系抽取方法
专知会员服务
56+阅读 · 2023年9月18日
基于知识图谱的仿真想定智能生成方法
专知会员服务
102+阅读 · 2023年6月4日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
152+阅读 · 2023年5月4日
专知会员服务
36+阅读 · 2021年8月27日
专知会员服务
25+阅读 · 2021年6月17日
专知会员服务
42+阅读 · 2021年5月6日
专知会员服务
124+阅读 · 2021年4月29日
基于深度神经网络的少样本学习综述
专知会员服务
172+阅读 · 2020年4月22日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
【学界】基于条件深度卷积生成对抗网络的图像识别方法
GAN生成式对抗网络
16+阅读 · 2018年7月26日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
26+阅读 · 2017年7月9日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员