人工智能技术的出现为空战领域的许多研究铺平了道路。学术界和许多其他研究人员对一个突出的研究方向进行了研究,即无人机的自主机动决策。形成了大量研究成果,但其中基于强化学习(RL)的决策更有效。已经有许多研究和实验使agent以最佳方式到达目标,最突出的是遗传算法(GA),A*,RRT和其他各种优化技术已经被使用。强化学习因其成功而广为人知。在DARPA阿尔法斗狗试验(Alpha Dogfight Trials)中,强化学习战胜了由波音公司培训的真正的F-16人类老飞行员。这个模型是由Heron系统公司开发的。在这一成就之后,强化学习带来了巨大的关注。在这项研究中,将无人机作为目标,该无人机有一个杜宾斯车动态特性,在二维空间中使用双延迟深确定策略梯度(TD3)以最佳路径移动到目标,并用于经验回放(HER)。首先,它的目的是让agent采取最佳路径到达目标,过程中有障碍物。在每个情节中,我们的agent从一个随机点开始,我们的目标是稳定的,其位置没有变化。它以最佳和快速的方式找到自己的路径。然后,为了测试机制的极限,使我们的agent更难达到目标,并使其执行不同的机动性,我们添加了障碍物。它表现得很好,克服了所有的障碍。现在的研究是让两个无人机作为多agent在二维空间进行斗狗。这篇研究论文提出了一种运动规划的算法,它使用了双延迟深度确定性策略梯度(TD3),这是一种为具有连续行动的MDP定制的算法,使用强化学习作为基础。