人工智能(AI)在塑造未来技术格局方面举足轻重。多智能体强化学习(MARL)已成为一项重要的人工智能技术,可用于模拟各个领域的复杂动态,为高级战略规划和自主智能体之间的协调提供新的潜力。然而,由于缺乏可解释性(可靠性、安全性、战略验证和人机交互的关键因素),它在敏感军事环境中的实际应用受到限制。本文回顾了 MARL 在可解释性方面的最新进展,并介绍了新的使用案例,强调了可解释性对于研究智能体决策过程的不可或缺性。首先对现有技术进行了批判性评估,并将其与军事战略领域联系起来,重点关注模拟空战场景。然后,引入了新颖的信息论可解释性描述符概念,以分析智能体的合作能力。通过研究,旨在强调精确理解人工智能决策的必要性,并使这些人工生成的战术与人类的理解和战略军事理论相一致,从而提高人工智能系统的透明度和可靠性。通过阐明可解释性在推进MARL用于作战防御方面的至关重要性,该工作不仅支持了战略规划,还通过有见地和可理解的分析支持了对军事人员的训练。
深度 RL 涉及神经网络在兵棋推演等复杂和真实世界环境中的决策。然而,由于难以解释其结果,这些网络经常被视为黑箱模型。可解释强化学习(XRL)指的是解释和理解强化学习模型决策过程的能力,让人们深入了解在特定情况下采取某些行动的原因。XRL 面临的挑战包括与科学评估和操作可靠性相关的风险、缺乏普遍接受的评估指标,以及为复杂任务提供全面解释的难度[3]。尽管存在这些挑战,但在军事行动中,采用有效的可解释性方法来理解模型输出对于诊断错误、提高模型性能和理解错综复杂的智能体行为尤为关键。这些方法在建立军事人员之间的信任、确保安全关键任务的透明度以及促进遵守严格的操作和监管标准方面发挥着至关重要的作用。在复杂而敏感的军事场景中,XRL 使指挥官和决策者能够解释和证明人工智能驱动的战略和行动,从而做出更加明智和负责任的决策。此外,精确的可解释性(即正确可靠的解释)有助于更好地进行风险评估和管理,改善人类与智能体之间的协调,并支持将先进的人工智能系统集成到现有的军事框架中,同时保持作战的可靠性和有效性。空战模拟涉及复杂的决策过程,智能体必须在瞬间做出决策以实现战略目标。这些模拟通常涉及众多因素,包括机动、瞄准、规避威胁、燃料管理以及与其他单元的协调。举例来说,考虑以下场景:智能体检测到敌军导弹来袭。为了反击,它迅速释放照明弹并进行桶形翻滚,以迷惑导弹的热传感器并躲避敌方的瞄准。在这一场景中,对导弹的观察是执行释放照明弹和桶形翻滚动作的重要特征。
本文回顾了 MARL 在可解释性方面的最新进展,并介绍了一些新颖的使用案例,这些案例突出了 MARL 在模拟空战场景(图 1-1)中分析智能体决策过程的关键作用。通过研究这些进展,我们强调了可解释性在理解和改进智能体行为方面的重要性,尤其是在应用于军事模拟等复杂环境时。我们的论文不仅仅是一份调查报告,它还探讨了可解释性如何加强战略规划、促进人类与人工智能的协作,以及确保人工智能在关键任务行动中做出的决策值得信赖。通过这些见解,我们旨在证明可解释 MARL 在高风险场景的研究和实际部署中的紧迫性。
目前有多种结合 RL 和 MARL 的方法,用于训练空战场景中的智能体。这些方法不仅限于战斗机的狗斗机动,还包括无人机群(UAV)和不同类型的飞机(异构智能体)。
小规模交战中的空战通常侧重于通过 RL 控制飞机,以便在几乎没有还击风险的情况下获得对对手有利的位置。早期控制飞机的方法包括专家系统或带有学习分类器的混合系统,而较新的方法则依赖于 RL。为了学习更强的 CoA,使用 RL 方法的模拟空战方法依赖于更先进的技术,如深度 Q 网络(DQN)、深度确定性策略梯度(DDPG)、课程学习方法或包含自我博弈的方法,即智能体与自身的副本进行博弈。
另一方面,更大规模的交战侧重于高层次的战术决策或武器-目标分配,即 CoA 的规划。在这种情况下,考虑到维度过程,MARL 方法通过利用单个智能体内部的对称性,尤其适用。在这一领域,有一些使用多智能体 DDPG、分层 RL 或基于注意力的神经网络的先进方法。我们之前的一项工作包括一个具有注意力机制的分层 MARL 模型,该模型使用近端策略优化(PPO)进行训练。在我们的工作中,我们还考虑了异构智能体,这在文献中似乎很少见。加入异构智能体会增加协调的复杂性,因为智能体可能不了解彼此的技能和能力。
现在回顾相关工作部分所回顾的 XRL 类别,随后将它们与空战场景的多智能体领域联系起来,以强调理解人工智能战术的益处和不可或缺性。前三种方法(策略简化、奖励分解和特征贡献)属于被动解释类别。这类解释侧重于短时间范围,根据即时行为提供反馈。例如,“飞机为什么发射导弹?”这样的问题可以通过 “对手进入武器交战区(WEZ)”这样的即时激励来回答。这些解释往往侧重于个人行为,而不是更广泛的战略考虑。相比之下,积极主动的解释考虑的时间跨度更长,更适合解释战略决策。例如,它们可以解释为什么在特定情况下,某些拥有特定技能的智能体被设置为防御模式,而其他智能体则采取攻击性战术。因果和层次 RL 模型可以提供这类解释,为空战中的长期战略和协调演习提供见解。
在深度 RL 中,神经网络被用作函数近似器来学习决策函数,可以是策略,也可以是 Q 函数,在我们的分析中,我们侧重于前者。策略简化指的是降低策略的复杂性,使其可以被人类解释的过程。具体做法包括:以决策树的形式学习策略,跟踪每个决策步骤;将学习到的策略作为 “if-then ”规则集(如模糊规则);使用状态抽象法将相似的状态分组,降低状态空间的维度;或使用高级的、人类可读的编程语言来表示学习到的策略。这些方法的主要优点是简单易用,因为这有利于产生解释并增强对系统的信任。在动态相对简单、智能体较少的环境中,即使是在不可预见(和简单)的空战场景中,这些方法也能充分推广和扩展,以提取有意义的解释。然而,在任务目标众多、智能体技能各异的更复杂环境中,这种方法可能就不适用了,因为解释往往是静态的。这种方法的主要缺点是模型性能与可解释性之间的权衡:随着可解释性水平的提高,模型的准确性往往会降低。在模拟空战场景中,逼真度对产生有价值的见解至关重要,因此保持模型的高准确性非常重要。这通常需要复杂的模型,涉及精密的神经网络、广泛的超参数调整、先进的训练算法和高度动态的环境。虽然策略简化会限制策略表示的类型,从而影响整体性能,但它可以作为一个实用、高效的起点。简化后的策略可以有效训练和解释空战智能体的基本控制动作,为未来的迭代打下基础,从而随着场景复杂度的增加,在可解释性和准确性之间取得平衡。