利用深度强化学习(RL)来优化针对多目标的多车高超音速打击的武器与目标分配(WTA)策略。目标是在每一集中最大化被摧毁目标的总价值。每个随机生成的事件都会改变高超音速打击武器(HSW)和目标的数量和初始条件、目标的价值分布以及 HSW 被拦截的概率。们将此 WTA 策略的性能与使用非线性整数编程(NLIP)推导出的基准 WTA 策略的性能进行了比较,发现 RL WTA 策略的性能接近最优,计算速度提高了 1000 倍,允许实时操作,有利于任务终局的自主决策。