美国的空中优势是美国威慑力的基石,正受到竞争对手的挑战。机器学习 (ML) 的普及只会加剧这种威胁。应对这一挑战的一种潜在方法是更有效地使用自动化来实现任务规划的新方法。
本报告展示了概念验证人工智能 (AI) 系统的原型,以帮助开发和评估空中领域的新作战概念。该原型平台集成了开源深度学习框架、当代算法以及用于模拟、集成和建模的高级框架——美国国防部标准的战斗模拟工具。目标是利用人工智能系统通过大规模回放学习、从经验中概括和改进重复的能力,以加速和丰富作战概念的发展。
在本报告中,作者讨论了人工智能智能体在高度简化的压制敌方防空任务版本中精心策划的协作行为。初步研究结果突出了强化学习 (RL) 解决复杂、协作的空中任务规划问题的潜力,以及这种方法面临的一些重大挑战。
研究问题
- 当代 ML 智能体能否被训练以有效地展示智能任务规划行为,而不需要数十亿可能情况组合的训练数据?
- 机器智能体能否学习使用攻击机、干扰机和诱饵飞机的组合来对抗地对空导弹 (SAM) 的策略?干扰机需要离地空导弹足够近才能影响它们,但又要保持足够远,以免它们被击落。诱饵需要在正确的时间分散 SAM 对前锋的注意力。
- 是否可以建立足够泛化的表示来捕捉规划问题的丰富性?吸取的经验教训能否概括威胁位置、类型和数量的变化?
主要发现
RL 可以解决复杂的规划问题,但仍有局限性,而且这种方法仍然存在挑战
- 纯 RL 算法效率低下,容易出现学习崩溃。
- 近端策略优化是最近朝着解决学习崩溃问题的正确方向迈出的一步:它具有内置约束,可防止网络参数在每次迭代中发生太大变化。
- 机器学习智能体能够学习合作策略。在模拟中,攻击机与 SAM 上的干扰或诱饵效应协同作用。
- 经过训练的算法应该能够相当容易地处理任务参数(资产的数量和位置)的变化。
- 很少有关于成功和不成功任务的真实数据。与用于训练当代 ML 系统的大量数据相比,很少有真正的任务是针对防空飞行的,而且几乎所有任务都取得了成功。
- 对于涉及使用大型模拟代替大型数据集的分析,所需的计算负担将继续是一个重大挑战。针对现实威胁(数十个 SAM)训练现实能力集(数十个平台)所需的计算能力和时间的扩展仍不清楚。
- 建立对人工智能算法的信任将需要更详尽的测试以及算法可验证性、安全性和边界保证方面的根本性进步。
建议
- 未来关于自动化任务规划的工作应该集中在开发强大的多智能体算法上。RL 问题中的奖励函数可以以意想不到的方式彻底改变 AI 行为。在设计此类功能时必须小心谨慎,以准确捕捉风险和意图。
- 尽管模拟环境在数据稀缺问题中至关重要,但应调整模拟以平衡速度(较低的计算要求)与准确性(现实世界的可转移性)。