复杂领域的团队训练往往需要大量资源,如车辆、机器和角色扮演者。因此,要在真实世界中实现高效和有效的训练场景可能比较困难。相反,部分训练可以在计算机生成的合成环境中进行。在这些环境中,受训人员可以操作模拟器来代替真实车辆,而合成演员则可以代替人类角色扮演者,从而以较低的操作成本提高模拟场景的复杂性。然而,为合成演员构建行为模型极具挑战性,尤其是对于通常不具备人工智能专业知识的终端用户而言。在本论文中,我们研究了如何利用机器学习来简化基于仿真训练的智能体的构建。本论文以一个模拟空战训练系统为例进行研究。

论文的贡献分为两个部分。第一部分旨在提高对基于模拟训练领域的强化学习的理解。首先,进行了一项用户研究,以确定旨在支持战斗机飞行员训练的学习智能体的重要能力和特征。研究发现,在基于模拟的训练中,学习智能体最重要的能力之一是其行为可以适应训练的不同阶段,以及人类受训者个人的训练需求。其次,在简化的训练场景中研究了学习如何与其他智能体协调的方法,以探究智能体的观察空间、行动空间和奖励信号的设计如何影响学习的表现。研究发现,时间抽象和分层强化学习可以提高学习效率,同时还能为条令行为建模提供支持。在更复杂的环境中,即使使用稀疏、抽象的奖励信号,课程学习和相关方法也有望帮助找到新战术。第三,根据用户研究和实际实验的结果,提出了用户自适应训练系统的系统概念,以支持进一步的研究。

贡献的第二部分侧重于基于效用的多目标强化学习方法,这种方法在寻找平衡多个相互冲突的目标的策略时纳入了用户效用函数的知识。本文提出了两个用于多目标强化学习的新智能体:可调智能体(T-Actor)和多目标梦想家(MO-Dreamer)。T-Actor 通过学习一组帕累托最优策略为教师提供决策支持,这些策略由一个以目标偏好为条件的神经网络表示。这样就能调整智能体的行为,以适应学员当前的训练需求。在网格世界和目标系统中进行的实验评估表明,T-Actor 减少了学习所需的训练步骤数量。MO-Dreamer 可根据用户效用的变化(如训练需求的变化)进行在线调整。它通过学习环境模型来做到这一点,并可利用该环境模型与一系列不同的效用函数进行预测性推出,以探索应遵循哪种策略来优化给定目标偏好的回报。实验评估表明,对于效用的频繁变化和稀疏变化,MO-Dreamer 在经验遗憾方面优于先前的无模型方法。

总之,本论文所进行的研究有助于提高人们对如何将机器学习方法应用于构建模拟训练环境的认识。虽然我们的研究重点是空战训练,但研究结果的通用性足以适用于其他领域。

图 1.1: LVC 分布式模拟集成了实时飞机、虚拟飞行模拟器和由人工智能控制的合成模拟。

1 引言

复杂领域的团队训练通常需要大量资源,如车辆、角色扮演者和教员。因此,要在真实环境中实现高效和有效的训练场景可能比较困难。相反,部分训练可以在计算机生成的合成环境中进行。在这些环境中,受训者可以操作模拟器来代替真实车辆,而合成演员则可以代替人类角色扮演者,从而以较低的操作成本提高模拟场景的复杂性。然而,构建能控制这类角色的智能体是一项挑战[136, 14, 137, 37],尤其是对于训练系统的最终用户来说,他们通常不具备人工智能方面的专业知识。在本论文中,我们将研究如何利用机器学习来简化智能体的构建,使其行为适应人类学员的需求。通过构建更智能的代理,可以减少对人类训练提供者的依赖,同时提高训练的可用性和质量。作为一个案例研究,我们使用了一个基于模拟的空战训练系统,该系统在完成模拟世界中的任务以及为人类学员提供高效和有效的训练方面,对合成智能体提出了许多挑战。

1.1 动机

为战斗机飞行员提供高效和有效的训练解决方案正变得越来越具有挑战性。由于飞机运营成本高、可用空域有限以及严格的安全规定,很难在实战环境中实现所需的训练内容和密度。此外,在公开场合进行训练有可能泄露有关战术和系统性能的敏感信息。为了应对这些挑战,必须在更大程度上利用虚拟和建设性模拟资源。如图 1.1 所示,实战、虚拟和建构(LVC)仿真旨在将真实飞机、地面系统和士兵(实战)、载人模拟器(虚拟)和计算机控制的合成实体(建构)[100]整合在一起。通过使用建设性模拟来增强受训者和角色扮演者操作的实机和虚拟飞机,可以模拟有大量友军、敌军和中立实体参与的场景,从而提高训练效率和效果[51, 111, 55]。理想情况下,智能体应能充当训练者,并根据人类受训者的训练需求调整自己的行为。这将使我们能够最大限度地减少开展训练所需的人力支持人员数量,从而降低成本并提高训练的可用性。

如图 1.2 所示,我们可以将训练系统的用户分为两大类:训练受众和训练提供者。训练对象包括接受训练的人员,如学习如何操作新飞机的飞行员。训练提供者包括提供训练的人员,如教员、角色扮演者、场景操作员和场景开发人员。教员负责训练课程的教学内容,而角色扮演者和场景操作员则分别作为演员或通过控制部分模拟场景来帮助开展训练。场景开发人员负责开发应模拟的场景,包括控制合成演员的行为模型。实际上,一个人可以扮演多个角色。例如,由于资源有限,一个人可以同时担任教员、角色扮演者和操作员。

图 1.2:模拟训练系统的用户。

这通常会造成很大的工作量,而且可能无法实现理想的训练场景。我们希望减少对训练提供者的需求,以提高训练效率和效果。如果合成智能体变得更加智能,它们就可以取代或增强人类角色扮演者,减少场景操作员的输入量,使训练场景按预期方式进行。为了进一步提高系统的自主水平,智能体还可以协助教员评估学员的表现,并调整训练场景的内容和特点[16]。然而,为智能体创建行为模型具有挑战性,尤其是对于训练系统的最终用户(如教员)来说,他们可能不具备所需的专业知识和经验[37]。过去,这制约了智能体在训练中的应用。现在,随着人工智能(AI)的最新进展,人们希望数据驱动方法能简化构建智能体的过程,从而在基于模拟的训练中取代或协助人类辅助人员。

在学习顺序决策方面,强化学习 [128] 已成为最先进的方法。在人类设计的奖励信号引导下,这类智能体可以纯粹通过与环境互动来学习决策策略。通过将深度学习[38]与强化学习相结合,在经典棋盘游戏和多人电脑游戏中击败人类冠军成为可能[122, 123, 61, 148]。这些成果激发了研究强化学习在许多领域应用的兴趣,包括空战模拟,学习智能体既可以充当队友,也可以充当对手。虽然一般的强化学习研究往往侧重于在某些领域(如游戏)实现超人的表现,但这项工作并不侧重于将强化学习用于开发新的空战战术,而是研究智能体如何学习行为,从而提高参与模拟场景的人类的表现。在开发新智能体的过程中,我们重点关注多目标强化学习,它可以在多个相互冲突的目标之间找到权衡,特别是基于效用的方法,它利用有关用户效用函数的知识,使学习更加高效和有效。

1.2 目的

本论文的目的是分析基于模拟的训练系统并为其建模,其中包含合成学习智能体,以提高效率和效果;通过开发基于效用的强化学习方法,支持提供基于自适应模拟的训练,该方法旨在根据有关应用领域的知识及其用户的效用函数提供最佳解决方案。长期目标是使训练能够有效地适应每个学员的需要,而不是提供一刀切的解决方案。

1.3 研究问题

为了实现论文的目标,我们探讨了以下研究问题:

问题 1:合成智能体需要具备哪些能力和特征,才能作为行动者参与基于合作和竞争的混合模拟训练场景?

问题 2:强化学习方法如何协助教员开展训练?

问题 3: 如何调整模拟内容以适应受训者的训练需求?

研究问题 RQ1 的重点是强化学习智能体作为合成角色扮演者,与人类受训者进行互动,从而有效地提供有效的训练环境。研究问题 RQ2 的重点是强化学习智能体作为合成助手,为教员的工作提供支持。研究问题 RQ3 涉及在用户自适应训练环境中部署的合成角色扮演者和合成教员助手的理想特性。

1.4 研究方法

论文工作中使用的方法包括三个迭代和互动过程:领域分析、概念开发和实验评估,如图 1.3 所示。领域分析旨在增进对应用领域(包括其用户及其需求)的了解,从而引导概念开发朝着最有前途的方向发展。由来自工业界和空军的主题专家(SMEs)组成的参考小组将为这一过程提供支持。概念开发的目的是更详细地研究和比较几个有前途的概念,以便在进行实验评估之前进一步缩小选择范围和进行专业化。在实验评估中,将在简单的模拟场景中对概念进行研究,以找出其优缺点。概念开发和实验评估的结果将用于支持反馈循环中的进一步领域分析。

图 1.3:三个相互作用的迭代过程:确定用户需求、开发可满足这些需求的概念,然后在实验中对概念进行评估。

1.5 局限性

在本论文中研究的方法是在模拟场景中进行评估的,这些场景与实际训练中使用的场景相比较为简单。原因在于,当前的强化学习算法需要智能体在复杂环境中寻找决策策略,这需要大量的计算资源。此外,大多数评估都不包括人类参与者,因为要得出具有统计学意义的结果,需要大量的参与者。因此,实验应被视为对想法和概念的初步评估。通过使用较简单的场景,可以根据第 1.4 节中介绍的方法完成更多的迭代。更高级的验证性实验最好与其他研究工作结合进行,并作为操作训练的一部分,一旦所研究的方法发展到更高的成熟度。

1.6 贡献

本论文的贡献可概括如下:

C1:进行了领域分析,以确定不同类型空战训练场景中的用户需求和理想的智能体功能。分析包括用户访谈、书面调查和目标系统中的实际实验。该分析有助于解决研究问题 RQ1 和 RQ2。

C2: 根据领域分析的结果,制定了一个系统概念,以确定该领域未来研究工作的框架。该系统概念提出了用户自适应训练系统的架构,旨在不断调整模拟环境,以适应每个学员的训练需求。该系统概念有助于解决研究问题 RQ1、RQ2 和 RQ3。

C3:开发了一个可调智能体(T-Actor)。T-Actor 通过学习一组参数化效用函数的策略,为教员提供决策支持。效用函数模拟智能体对一系列目标的偏好,并影响其行为。教员可以通过对效用函数进行后验调整,为每个学员选择合适的策略。T-Actor 有助于解决研究问题 RQ2 和 RQ3。

C4:我们开发了基于多目标模型的演员评判器--多目标梦想家(MO-Dreamer)。MO-Dreamer 在具有动态效用函数的环境中进行在线学习,并利用所学世界模型中的想象力滚动来改进其政策,以预测效用的变化。MO-Dreamer 有助于解决研究问题 RQ2 和 RQ3。

第一部分:领域分析和概念设计

用户研究

图 3.2:敌对实体沿红色路线接近空中战斗巡逻队 (CAP)。CAP 的飞机正在保护蓝色的战斗机责任区 (FAOR),有标记为黄色的高价值资产。

本章以用户为中心,分析了在基于模拟的飞行员训练系统中引入智能学习代理的问题。首先,我们讨论了教员在使用实时、虚拟和建构模拟提供训练时必须应对的制约因素,以及如果解决目前代理技术的不足,合成代理如何消除部分制约因素。然后,我们构建了一个飞行员在反空中作战中的决策模型,以确定智能体设计应支持哪些决策模式。最后,通过访谈和调查来确定在飞行员训练的不同阶段对智能体能力和特性的要求。

我们发现,学习智能体有可能提高建设性模拟的能力,从而在减少使用现场和虚拟仿真资源的同时,仍能为学员提供有效的训练场景。我们还注意到,改进后的用户界面可以让在人工智能方面几乎没有专业知识的主题专家构建高质量的智能体,从而减少对模拟器工程师支持的需求,并有可能缩短根据训练需求更新系统的周转时间。

用户的反馈意见表明,必须使智能体的行为能够适应不同类型的训练以及具有不同训练需求的学员。此外,智能体还必须能够在各组智能体竞争的场景中扮演不同的角色,如对手、组长和僚机等。最后,能够解释合成智能体的行为对于支持汇报环节的分析非常重要。目前为合成飞行员开发行为模型的方法很难满足这些要求。例如,用户认为建构实体无法在空战场景中扮演领导角色,无法与人类受训者有效合作,也缺乏以可信方式响应命令的能力[7, 106, 159]。因此,改进行为模型可以提高 LVC 仿真的训练价值。

学习互动和协调

在本章中,在四个与反空作战有关的简化场景中对多智能体强化进行了实验评估: 进攻性对空作战、防御性对空作战、人机协作防御性对空作战和空中侦察。学习智能体在这些场景中的表现能力关系到它们在场景中是作为友好实体还是敌对实体行动。

在 "进攻性反空 "和 "防御性反空 "场景中,我们看到具有时间延伸的行动可以显著提高学习性能。此外,还可以将条令行为编码到此类行动中,使合成智能体的行为显得更加真实。利用智能体组队进行空中防御的结果表明,利用低级动作进行学习反而会产生不必要的定性效果,如飞机频繁转向,即使定量结果表明行为得体。可以通过在奖励功能中增加额外的目标来减少这种不必要的副作用,例如对不受欢迎的行为进行惩罚。不过,这将使奖励设计变得更加复杂。例如,在近距离战斗中很自然的飞行动作,如果在没有任何敌人的情况下进行巡航,可能会显得不自然。防空反击场景中的结果表明,交流机制可以提高学习绩效,正如讨论中所说,这种机制在某种程度上也可以在人类-智能体团队合作中实施。

进攻型和防御型空中对抗场景的结果表明,在学习低层次行动时,智能体可能需要先学习实现子目标的策略,然后才能找到完成整个任务的策略。为了提高学习效率,智能体的行为可以取决于当前的场景背景。例如,可以使用不同的策略来处理进攻性对空方案中的进入、攻击和出口阶段。完整的策略可以组织成一个决策层次结构,其中位于层次结构顶端的智能体负责在 LACC 的第 6 层 FRA 中确定当前形势,然后将背景情况分配给负责导航、传感器管理和武器投放等工作的下层智能体。

空中侦察场景中的结果表明,即使是简单的问题,奖励设计也会极大地影响学习智能体的表现,通过构建学习课程,可以显著提高学习成绩。然而,为更复杂的问题构建这样的课程可能具有挑战性。相反,也可以采用学习方法来定义课程,就像人类教员利用他们获得的领域知识来更新人类受训者的训练内容一样。这就要求负责课程的智能体评估学习代理当前的表现,并确定如何调整环境以实现难度的适当变化。

在本研究中,我们采用了集中式训练和分布式执行(CTDE)的方法。由于在我们的实验设置中,学习型智能体在训练过程中与人类没有互动,因此学习到的策略有可能会过度适应环境中其他合成的学习型智能体的行为。当智能体需要与人类互动时,这可能会导致性能损失,因为人类的行为可能与合成智能体不同。此外,预计不同人类飞行员的行为也会有所不同,特别是当飞行员正在接受训练和完善技能时。避免过拟合风险的一种方法是在智能体群体中强制执行多样性,例如,按照文献[84]的建议,通过学习政策集合。另一种方法是使智能体具备从开发环境转移到运行系统后迅速调整其行为的能力。

我们还注意到,我们使用的 MADDPG 参考实现并没有实现优先经验重放,因为在训练中央批判者时,所有智能体的经验都需要来自同一时间步。当使用较大的重放缓冲区进行学习时,这可能会对性能产生负面影响,因为对学习最有价值的经验可能不会经常被采样。

图 4.5:防空反击模拟场景。

概念设计

图 5.1:使用学习智能体的训练系统架构。

在本章中,我们介绍了用户自适应训练系统的概念,该系统可帮助教员提供适合学员个人能力的训练。这一概念基于通过访谈、调查和实际实验获得的有关空战训练领域及其用户的知识。系统架构有两个主要元素,可实现训练适应性:场景适应智能体和合成训练器智能体。

场景适应智能体负责高层次的适应,其作用类似于教官。这包括根据受训者过去的表现对其进行分析,并确定当前的训练需求。为满足这些需求,训练环境将通过改变训练场景、训练任务和分配给学员的任务进行调整。

合成训练师智能体作为演员参与训练场景,其行为方式与人类角色扮演者类似。它的行为特征由场景适应智能体通过其效用函数进行调整,就像人类角色扮演者可以根据教员的输入调整自己的行为一样。

我们讨论了与架构各组成部分相关的要求,以及实现这些要求的不同方法。在构建这些智能体时,我们建议采用基于效用的多目标强化学习方法,因为其使用案例与我们的领域分析和用户研究中确定的案例相吻合。作为第一步,论文的第二部分介绍并评估了合成训练智能体的两种实现方式。

图 5.2:强化学习多目标方法的激励场景[45]:(a) 未知效用函数场景,(b) 决策支持场景,(c) 已知效用函数场景,(d) 交互式决策支持场景,(e) 动态效用函数场景,以及 (f) 审查和调整场景。

第二部分 基于效用的仿真强化学习

基于智能体的可调动态模拟

图 6.1: 左图:可调actor结构。右图:效用条件神经网络

在本章中,我们为基于智能体的模拟提出了一种智能体架构和训练方案。该架构允许我们在多目标环境中使用标准的深度强化学习算法。通过指定智能体对一组目标的偏好,我们提出的方法可用于训练可在运行时调整其行为的智能体。我们的实验证明,这些可调整的智能体可以近似于具有固定目标偏好的几种不同行为类别的智能体的策略。实验还表明,训练时间与具有固定偏好的智能体的训练时间相当,这意味着与从头开始学习一套策略相比,可以提高采样效率。一旦发现了解决方案前沿的有趣区域,例如与主题专家的互动,就可以通过进一步的训练来改进这些区域的政策。我们认为,这一功能对于高效构建适应用户需求的智能体模拟(如应用于训练系统)非常有价值。

我们所使用的线性效用函数的一个缺点是,如果使用的是确定性策略,而问题的帕累托前沿是一个凹面,则可能无法找到所有理想的策略[144, 141]。为了更好地覆盖解空间,必须使用非线性标量化函数。如果允许使用随机策略,则可以使用 CCS 中的凸混合策略来形成帕累托前沿的连续估计值,该估计值在凹面中支配所有解[141]。不过,如果我们感兴趣的是每个事件的结果(ESR),而不是多个事件的平均结果(SER),这可能就没有什么用处了。对于基于用户自适应模拟的训练,ESR 设置是合适的,这将在第 5 章中讨论。

我们研究的环境相对简单。在现实世界中,训练这类智能体可能更具挑战性。在未来的工作中,我们希望研究拟议方法在更复杂环境中的性能,包括具有大型行动空间、部分可观测性的环境,以及需要智能体之间进行更复杂交互的任务。我们还想研究智能探索策略,让智能体在训练时可以有很多目标和高维度的偏好空间,以及对未见权重的高效迁移学习。未来工作的另一个有趣课题是开发有效的方法来激发用户对智能体特征的偏好,从而构建符合用户需求的模拟。最后,我们还希望研究基于模拟的训练系统中的人机互动。

在本章研究的场景中,风险意识飞行路线选择场景面临的挑战最大,在该场景中,可调代理需要在连续空间中选择飞行路线。要为效用空间中的每个效用函数找到合适的航线,需要进行大量的学习,而这对于复杂的场景来说可能需要进行昂贵的计算。作为进一步提高多效用函数学习效率的第一步,下一章将提出一种基于模型的方法,用于用户效用函数随时间变化的环境中的多目标强化学习。

用动态效用函数构想

图 7.1: MO-Dreamer 与环境互动,建立了一个包含各种经验的数据集,用于构建一个想象力推广模型,在这个模型中,过去的经验状态与经验和想象中的效用函数一起被重新审视,以改进材料。

在本章中,提出了MO-Dreamer,一种基于模型的多目标actor-critic,用于在具有动态效用函数的环境中进行学习。MO-Dreamer 强化了经验回放缓冲区中存储和采样的轨迹回报的多样性,以便在学习过程的早期进行高强度训练,同时降低过度拟合的风险。此外,MO-Dreamer 还利用具有多种效用函数的想象力,探索在给定目标偏好的情况下,应遵循哪种策略来优化收益。

在效用函数频繁变化和稀疏变化的 Minecart 基准上进行的实验评估表明,在动态效用函数情况下,MO-Dreamer 在累积遗憾和平均偶发遗憾方面明显优于无模型的多目标强化学习最先进算法。在 "深海宝藏 "基准测试中,MO-Dreamer 的收敛速度很快,总体上优于无模型智能体,但在完全可观测的情况下,MO-Dreamer 学习到的最终策略较差。在部分可观测性条件下,MO-Dreamer 的表现明显优于无模型基线。在简单的 "深海宝藏 "任务中,MO-Dreamer 的表现与无模型算法不相上下,这说明了世界模型学习的效率。

基于模型的方法可以更有效地适应学员训练需求的变化。在操作训练系统中,世界模型可以根据每次训练的数据进行优化。然后,该模型可用于优化合成智能体的策略,这些策略对训练中心学员群体观察到的每个效用函数都是最优的。与飞行模拟器的战术环境模拟相比,学习到的世界模型更加紧凑,计算效率更高。这意味着,只要模型的质量足够好,利用世界模型进行学习就能对政策进行更大程度的微调。

在今后的工作中,我们打算扩展世界模型,以处理具有多个学习智能体的环境。除了支持政策学习外,这种世界模型还可以在线使用,对其他智能体的未来决策进行预测。这既可以支持合作决策,也可以支持竞争决策。未来工作的另一个有趣方向是研究如何将学习到的世界模型用于各种形式的迁移学习。例如,我们想研究在使用线性效用函数行动时学习到的世界模型如何用于非线性效用函数的迁移学习。这可能需要新的探索策略,在与非线性效用函数相关而与线性效用函数无关的环境中改进世界模型。最后,我们希望将实验评估扩展到与战术飞行员训练更相关的环境中。

成为VIP会员查看完整内容
50

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《预测战场信息价值的在线学习方法》2023最新19页论文
专知会员服务
35+阅读 · 2023年12月7日
《预测战术部队的未来目的地》2023最新55页论文
专知会员服务
38+阅读 · 2023年8月28日
《用于杀伤力分析的检测技术》美西点军校2023最新论文
专知会员服务
19+阅读 · 2023年7月11日
《反潜战中波浪滑翔机的最佳位置》2023最新85页论文
专知会员服务
32+阅读 · 2023年5月7日
《地面部队指挥官虚拟现实训练器》2022.12最新67页论文
专知会员服务
39+阅读 · 2023年2月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
Arxiv
130+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
322+阅读 · 2023年3月31日
Arxiv
14+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员