本报告描述了2020财年在美国陆军作战能力发展司令部陆军研究实验室的主任战略倡议(DSI)项目《人工智能(AI)用于多域作战(MDO)的指挥和控制(C2)》下进行的工作。多域作战的速度和复杂性要求在高度活跃的环境中对近似对手进行高速决策和执行,这往往可能超出人类的认知能力。最近,新兴的人工智能技术,如深度强化学习(DRL),在复杂的、相对非结构化的、部分信息的战略游戏(如Dota 2和StarCraft II)中的表现超过了人类世界冠军。这表明这种人工智能有可能对MDO的C2做出贡献。然而,关于这种新的人工智能技术的行为和限制的许多问题仍未得到解答。作为DSI的一部分,我们正在研究DRL是否可以支持未来多域部队的敏捷和适应性C2,这将使指挥官和工作人员能够迅速有效地利用转瞬即逝的优势窗口。在第一年,我们开发了两个新的C2测试平台,并在这些测试平台上进行了基于DRL的学习。本报告包括项目的概述,并展示了初步的研究成果,其中一个“人造指挥官”在模拟的旅级战斗中执行了一个综合规划-执行过程。
同行对手多域作战(MDO)的速度和复杂性可能会超过人类指挥员在传统的、主要是人工指挥和控制(C2)过程中的认知能力。同时,人工智能(AI)技术的新成果,如深度强化学习(DRL),开始显示出有可能支持多域作战的指挥与控制。过去两年的发现表明,基于DRL的算法可以在复杂的、相对非结构化的、部分信息的战略游戏(如Dota 2和StarCraft II)中胜过人类世界冠军。通过这些突破,强化学习(RL)已经证明了人工智能在复杂游戏中开发和实施多层策略后控制多个智能体的潜力。未来MDO作战指挥的特点是在非结构化的任务领域内具有高度的复杂性,这与复杂的游戏模拟环境有一些相似之处。因此,将基于人工智能的方法扩展到军事领域,可能为提高战斗指挥能力提供了重要的可能性。
本报告中描述项目的长期意图并不新鲜。在过去的几十年里,有许多想法和相应的研究,旨在开发自动化或半自动化的工具,以支持规划和执行军事行动的决策。以下是过去在这一领域的一些工作,本报告的一些作者亲自参与了这些工作。
美国国防部高级研究计划局(DARPA)的联合部队空中部分指挥官(JFACC)项目在20世纪90年代末进行,为联合空战的敏捷管理开发了一些概念和原型。当时考虑的大多数方法涉及各种航空资产的路线和活动的持续实时优化和再优化(随着情况的不断变化)。同样在20世纪90年代中后期,陆军资助了行动方案开发和评估工具(CADET)项目,该项目探讨了经典的分层规划的潜在效用,该计划适用于对抗性环境,可以将高水平的战斗草图转化为详细的同步矩阵--这是理论上的军事决策过程(MDMP)的关键产品。在21世纪初,DARPA启动了实时对抗性情报和决策(RAID)项目,该项目探索了一些预测敌方作战规划的技术,以及动态地提出友好的战术行动。在所探索的技术方法中,博弈求解算法是最成功的。
2000年代末,DARPA的冲突建模、规划和结果实验(COMPOEX)计划探讨了多个领域的作用及其非常复杂的相互作用--除了传统的动能战斗,还有政治、经济和社会影响。该计划研究了相互关联的模拟子模型的使用,主要是系统动力学模型,以协助高级军事和文职领导人在复杂的作战环境中规划和执行大规模战役。非传统作战领域如网络领域的重要性已经得到认可,2010年,北约的一个研究小组研究了评估网络攻击任务影响的模拟方法,并强调了网络、人类和传统物理领域之间相互作用的强大非线性效应。
在前面提到的研究工作中所采取的所有方法,以及许多其他类似的方法,都有主要的和一些共同的弱点。它们往往需要对问题领域进行严格、精确的表述。一旦这样的表述被构建出来,它们往往能产生有效的结果。然而,一旦有新的元素需要被纳入到表述中(例如,一种新的军事资产类型或一种新的战术),就需要进行困难的、昂贵的、手工的和长期的努力来“重新连接”问题的表述和微调解决方案的机制。而现实世界呈现出无穷无尽的新元素,必须加以考虑。
在20世纪80年代的基于规则的系统中,随着越来越多的规则(它们之间的相互作用往往是不可预测的)必须被添加以代表现实世界中错综复杂的领域,一个系统将变得不可维护。在基于优化的方法中,同样地,重要变量和各种约束条件之间无穷无尽的关系必须不断地手动添加(维护的噩梦),以代表现实世界中复杂的领域。在基于游戏的方法中,由于越来越多的领域的现实情况不得不被手动设计并添加到游戏的表述中,管理每个棋子的合法移动和移动效果的规则将逐渐变得无可救药地复杂。
简而言之,这种方法在建立和维护表征方面是高成本的。理想情况下,我们希望看到一个系统能够直接从真实或模拟世界的经验中 "学习"(即自我规划)其问题的制定和解决算法,而不需要任何(或很少)人工规划。机器学习,特别是RL,正是提供了这样的希望。这是我们项目背后的一个主要动机。
美国陆军目前还没有一个基于人工智能的、部分自主的任务指挥工具,在战术或作战层面上以高作战节奏(OPTEMPO)运作。通常情况下,生死攸关的决定是由少数人在时间限制下利用不完善的信息作出的。目前可供规划者使用的工具(如高级野战炮兵战术数据系统[AFATDS]、蓝色部队追踪器等)通常仅限于分析战场地形的基本决策辅助工具和记录决策的自动化工具。指挥官在向下级提供快速OPTEMPO指导时,会遇到信息过载。战斗损伤评估(BDA)很慢,而且不能与单位运动/传感器与射手的联系同步,也不允许利用优势窗口。行动方案(CoA)分析主要集中在对友军计划的评估上,很少强调对手的目标和能力的复杂性。
随着空间、网络电磁活动(CEMA)和机器人资产的加入,MDO成倍地增加了C2的复杂性,这可能会使OPTEMPO比过去更高。此外,人类指挥官使用目前可用的决策辅助工具来提供高度详细的指令将是难以解决的。有可靠的报告称,美国的同行和近邻竞争对手,特别是中国,正在大力追求人工智能在军事上的应用,包括指挥决策和军事推演(即兵棋推演)。因此,在追求人工智能C2系统的过程中,存在着很大的失败风险,只有不断地朝着这个目标前进,不断地努力实现一个能够在MDO中执行C2的人工智能系统,才能克服这个风险。
到2035年,我们设想需要开发敏捷和适应性强的人工智能C2系统,用于复杂、高OPTEMPO、超活跃的MDO中的作战规划和决策支持。这些系统将不断整合未来战争的几个领域。设想中的系统将能够分析敌人的活动;不断地规划、准备、执行和评估战役,通过不断地感知、识别和快速利用新出现的优势窗口,使军队的能力得到快速反应。这些优势窗口将在不同梯队的MDO框架内的行动中出现,但识别和利用它们需要较少地依赖刻意的规划周期,而更多地依赖持续、综合的规划能力。启用人工智能的C2系统有可能在不同的梯队、领域和多个同时运作的资产之间快速同步采取多种行动,以利用优势窗口。部队将主要由机器人资产(地面、空中)组成,人工智能C2系统将收集和处理来自智能传感器和平台的数据,评估作战环境中的新趋势,并建议采取减少认知负担的行动,使人类指挥官能够快速有效地采取行动。启用人工智能的流程还将提供定量分析、预测分析和其他可供人类有效使用的突出数据。这最终将使美国陆军有能力在武装冲突期间,根据对敌人弱点的理解和详细的友军估计,重新分配、重组和使用能力,并将产生具体、详细的指令来控制自主资产。
DEVCOM陆军研究实验室在机器人学、自主性、人工智能和机器学习方面有积极的研究计划。本报告的作者领导了政府、学术界和工业界合作伙伴之间的大型合作机器人研究工作的研究和整合活动,在场景理解、人类与人工智能的合作、RL、多智能体强化学习和多智能体协作系统方面进行了开拓性的研究。此外,ARL还拥有广泛的基础设施来进行上述领域的研究。这包括用于机器人研究的地面和空中平台;用于场景驱动研究的机器人研究合作园区(R2C2),能够承载实时的、可扩展的、多领域的实验;旨在支持人工智能和机器学习应用的新兴要求的集装箱式超级计算机;这只是其中的几个例子。我们相信,这些专业知识和资源可以被用来建立一个成功的计划,将人工智能纳入C2应用。
ARL主任战略倡议(DSI)计划是一个跨学科基础和应用研究的机制,成功的提案可以跨越科学和技术学科的界限。该计划确定了代表战略研究机会的主题领域,对陆军任务具有非常高的潜在回报,以扩大现有的计划或建立新的核心能力,并在这些领域建立内部的专业知识。
作为20财政年度授予的 "用于MDO C2的人工智能 "DSI项目的一部分,我们探索基于DRL的算法在多大程度上可用于估计红方部队的状态,评估红方和蓝方的战斗损失(损耗),预测红方的战略和即将展开的行动,并根据所有这些信息制定蓝方计划。这种方法有可能为蓝方部队产生新的计划,利用潜在的机会窗口,其速度比专家规划者快得多。最近,DRL在非结构化战略游戏中的成功提供了重要的暗示性证据,表明人工智能方法可能能够基本上 "从零开始 "发现适当的战术概念,并以高于人类的速度选择、应用和执行战略。
在这个DSI中,我们探索使用DRL在战斗行动前制定详细的计划,并在执行正在进行的行动中生成实时计划和建议。我们计划在两个关键领域推动技术水平的发展:1)构思、设计和实施基于DRL的智能体,以生成与专家计划员生成的计划一样好或更好的计划;2)将人类纳入指挥和学习回路,并评估这些人工智能-人类(人在回路中)的解决方案。在为这种人工智能支持的C2开发途径的同时,需要回答几个研究问题。在这个DSI中,我们试图回答三个具体问题:
DRL C2智能体的训练和数据要求是什么,以便准确和足够快地学习?
我们如何才能使DRL智能体具有通用性,以便根据人类专家的判断,特别是在以前未曾见过的细节被引入到一个情况中时,它们能够合理地执行?
在人工智能支持的C2系统中,人类的干预有什么影响?
该项目第一年的重点是开发研究的基本构件,包括:1)通过调整和使用基于《星际争霸II》和OpSim的环境来开发模拟能力和高级界面;2)开发执行C2功能的初始端到端人工智能;3)通过与高性能计算(HPC)环境整合来开发计算能力;4)初步确定数据量和训练要求。本报告提供了这些任务中每个任务的细节。
作为该项目的一部分,我们开发了C2模拟和实验能力,包括与基于DRL的人工智能算法和国防部高性能计算系统上的可扩展RL的接口的模拟战斗空间(图1)。我们使用两种模拟环境来生成C2场景:星际争霸II学习环境(SC2LE)29和OpSim。虎爪,一个由卓越机动中心(Fort Benning,Georgia)开发的场景,在模拟环境中生成了真实的战斗环境。最后,我们使用RLlib31,一个为RL提供可扩展软件基元的库,在HPC系统上扩展学习。
图1 C2基础设施概述
虎爪行动(Tiger Claw)是一个预定义的战斗场景,由红军和蓝军组成,由乔治亚州本宁堡的上尉职业课程的军事主题专家(SME)开发。这个假想场景显示特遣部队(1-12 CAV)在区域内进攻,以夺取OBJ Lion,以便将师的决定性行动(DO)向东传递。特遣部队的目标是穿越Thar Thar Wadi,摧毁红色部队,并夺取OBJ Lion(图2)。特遣部队包括使用M1A2艾布拉姆斯的战斗装甲,使用布拉德利的步兵战车,野战炮和迫击炮,使用布拉德利的装甲侦察骑兵,战斗航空兵,防空兵和无人驾驶飞机。红军由装备BMP-2M的机械化步兵、装备T-90坦克的战斗装甲、野战榴弹炮、装备BMP-2M的装甲侦察骑兵、战斗航空兵、反装甲兵和战斗步兵组成。虎爪方案还包括由中小型军事专家制定的蓝军和红军的可能计划。这些计划是根据作战命令(OPORD)和相应的威胁战术,使用理论上的力量部署产生的。虎爪方案已被纳入OpSim和《星际争霸II》,并作为一个基准基线,用于比较不同的神经网络架构和奖励驱动属性。
图2 TF 1-12 CAV在《虎爪》中的作战区域(AO)。
星际争霸II》是一个复杂的实时战略游戏,玩家要在高水平的经济决策和低水平的个人控制可能的数百个单位之间取得平衡,以压倒和击败对手的部队。星际争霸II》对人工智能有许多困难的挑战,使它成为MDO中C2的一个合适的模拟环境。例如,游戏有复杂的状态和行动空间,可以持续数万个时间步骤,实时选择数千个行动,并由于游戏的部分可观察性或 "战争迷雾 "而捕捉到不确定性。此外,该游戏具有可用于MDO模拟的异质资产、固有的C2架构、嵌入式军事(动能)目标,以及与更强大的模拟(例如,One Semi-Automated Force [OneSAF])相比,实施/修改的学习曲线较浅。DeepMind的SC2LE框架将暴雪娱乐公司的《星际争霸II》机器学习应用编程接口暴露为RL环境。这个工具提供了对《星际争霸II》和相关地图编辑器的访问,以及RL智能体与《星际争霸II》互动的接口,获得观察和发送行动。
作为DSI的一部分,一个SC2LE地图是根据Tiger Claw OPORD和支持文件开发的(图3)。通过重新绘制图标以纳入2525B军事符号和与虎爪计划相关的单位参数(武器、范围、比例),游戏被军事化。内部评分系统被重新使用,以计算RL的奖励函数,其中包括任务目标的收敛(穿越瓦迪),蓝色损耗的最小化,以及红色损耗的最大化。
图3 《星际争霸II》中的虎爪地图
虎爪剧情是在《星际争霸II》中使用其编辑器重新创建的。这个编辑器包含在暴雪娱乐公司免费下载的《星际争霸II》中,它有许多创建自定义内容的功能。掌握这些功能的一个很好的资源是专门用于编辑器的在线社区论坛。在下面的章节中,将详细讨论使用编辑器开发地图、单位和奖励的问题。
我们使用《星际争霸II》编辑器为《虎爪》场景创建了一个新的近战地图。地图的大小是编辑器中最大的(256乘256),使用《星际争霸II》的坐标系统。荒地瓷砖组被用作地图的默认表面,因为它在视觉上类似于《虎爪》中AO的沙漠地区(图4)。
图4 《星际争霸II》编辑器中的初始虎爪地图
在最初的设置之后,我们使用地形工具修改地图,使其大致接近AO的情况。关键的地形特征是无法通行的瓦迪,其交叉点有限。
距离缩放是创建场景的一个重要因素。在最初的地图中,我们使用已知的地标之间的距离,将《星际争霸II》的距离,使用其内部坐标系统,转换为公里数。这种转换对于在单位修改期间调整武器射程非常重要(图5)。
图5 修改后的《星际争霸II》编辑地图
最初的实验使用《星际争霸II》来可视化模拟复制品。这些回放的游戏感成为一个明显的干扰因素。为了补救这个问题,我们希望采用其他的可视化方法,特别是ARL开发的混合现实环境Aurora。新的可视化方法使用AO的地理地图。因此,有必要修改《星际争霸II》的地图,以便与AO的经纬度相一致。在修改后的地图中,距离比例是通过将《星际争霸II》的坐标转换为经纬度来确定的。
为了模拟 "虎爪 "场景,我们选择了与军事单位能力相近的《星际争霸II》单位。我们复制了《星际争霸II》中的单位,并在编辑器中修改了它们的属性以支持该场景。
首先,我们修改了这些单位的外观,并用适当的MIL-STD-2525符号代替(表1)。在《星际争霸II》中,每个单位都与多个角色相关联,这些角色控制着该单位在游戏中的外观。我们能够将演员与他们的默认效果图解开,有效地使这些单位不可见。接下来,我们将所需的军事符号的图像导入编辑器。最后,我们使用了SCMapster.com上发布的 "rr Sprite Engine"(LGPL 2.1许可)库,将这些单位与它们的军事符号联系起来。
表1 虎爪部队与《星际争霸II》部队的映射关系
为该场景修改的其他属性包括武器射程、武器伤害、单位速度和单位寿命(它能承受多少伤害)。武器射程是从公开资料中发现的,并根据地图的尺寸进行缩放。单位速度在《虎爪行动指令》中确定,并固定在该值上。伤害和生命的属性是估算出来的,其指导原则是保持平衡的冲突。每个《星际争霸II》单位通常只有一种武器,这使得模拟一个连级单位可用的各种武器具有挑战性。额外的努力来提高单位修改的准确性,需要战争游戏的主题专家。
修改后的部队被放置在地图上,以接近虎爪的场景(图6)。在实验过程中,蓝色部队将由一个使用PySC2(DeepMind的SC2LE的Python组件)开发的智能学习智能体控制。此外,蓝军部队被修改为没有天生的攻击性。换句话说,他们不会参与进攻或防守,除非有智能体的特别命令。为了控制红色部队,我们使用了两种不同的策略。第一种策略是为红色部队的行动加入一个脚本化的CoA,在每次模拟中都会执行。该部队默认的攻击性属性控制它如何与蓝方交战。第二种策略是让《星际争霸II》的机器人AI控制红方部队执行全面攻击,或在编辑器中称为自杀。内置的《星际争霸II》机器人有几个难度级别(1-10),这决定了机器人的熟练程度,其中1级是一个相当初级的机器人,可以很容易地被击败,10级是一个非常复杂的机器人,使用玩家无法获得的信息(即一个作弊的机器人)。最后,环境因素,如战争迷雾,在不同的实验中被切换,以调查其影响。
图6 使用MILSTD2525符号的星际争霸II
奖励功能是RL的一个重要组成部分,它通过对每种情况给予积极或消极的奖励来控制智能体人对环境变化的反应。我们在SC2LE中加入了虎爪场景的奖励功能,我们的实现超越了SC2LE内部的评分系统。原来的计分系统根据玩家的单位和结构的资源价值进行奖励。我们的新计分系统只关注游戏的军事方面,即获得和占领新的领土,以及摧毁敌人。
我们的奖励功能为蓝军越过瓦迪(河流)提供+10分,为撤退提供-10分。此外,我们还对摧毁红军部队给予+10分,如果蓝军部队被摧毁则给予-10分。
为了实现奖励功能,首先需要使用SC2LE编辑器来定义地图的各个区域和目标。区域是由用户定义的区域,它被触发器所利用(图7)。
图7 《星际争霸II》中的区域和目标
触发器是创建一套指令的模板,允许用户将与特定事件相关的效果编入模拟中(图8)。一般来说,一个触发器由以下部分组成。
事件。启动触发器(例如,一个单位进入一个区域)。
变量。存储信息。(例如,BlueForceScore,蓝军的得分)。
条件。对行动的限制,需要在行动发生时为真。(例如,单位是蓝色部队的成员)。
行动。事件的结果或成果(例如,单位获得积分)。
图8 《星际争霸II》中虎爪场景的触发实例
作为未来工作的一部分,我们计划根据指挥官在虎爪警告令(WARNORD)中的意图所定义的具体团队目标来纳入额外的奖励。奖励功能将试图训练智能体维持单位作为团队,作为团队一起参与预定目标,并创造对军事主题专家来说合理的最佳行为。
OpSim是由科尔工程服务公司(CESI)开发的决策支持工具,提供计划支持、任务执行监控、任务演练、嵌入式训练以及任务执行监控和重新计划。OpSim与SitaWare指挥、控制、通信、计算机和情报(C4I)集成,后者是由项目执行办公室指挥控制通信-战术(PEOC3T)投入使用的指挥所计算环境(CPCE)的重要组成部分,使各级指挥部门能够共享态势感知并协调作战行动,从而使其成为直接与作战任务指挥相连的嵌入式模拟。它从根本上被构造成一个基于可扩展的面向服务架构(SOA)的模拟,能够比目前最先进的模拟环境如OneSAF和MAGTF战术战争模拟器(MTWS)运行得更快。传统的建设性模拟最多运行1-20次墙钟时间,而OpSim可以运行30次虎爪的复制--如果实时连续运行,需要240小时。OpSim中模拟计划的输出包括根据弹药支出、伤亡、设备损失、燃料使用等标准对蓝军计划进行综合排名。然而,OpSim工具并不是为人工智能应用而设计的,必须通过整合接口来运行基于DRL的算法。开发了一个OpenAI Gym接口,以暴露模拟状态,并向外部智能体提供模拟控制,能够为模拟中的选定实体提供改变的行动,以及在回应接口之前的模拟时间。
强化学习可以被形式化为一个马尔科夫决策过程,由一组行动、一个过渡概率函数、一个奖励信号和一个环境状态组成。32 在RL中,目标是找到一个最佳行动,使预期的、累积的折现奖励之和最大化。将深度神经网络与RL结合起来,DRL将深度神经网络架构与RL框架结合起来,以接近环境中各状态的最佳行动。DRL的设计包括以下部分:状态空间(环境状态表示)、行动空间(行动集)、奖励信号和一个深度神经网络。
对于环境状态的访问,RL框架使用类似OpenAI Gym的接口与OpSim和StarCraft II模拟器,为RL提供环境的抽象(图9)。OpenAI Gym是一个开源的软件包,为RL的开发和测试提供了一个具有通用接口的环境集合。OpenAI Gym专注于RL环境的抽象化,从而保持智能体开发的灵活性。两种模拟环境中使用的具体行动、状态空间和奖励信号将在后续章节中详细讨论。
图9 使用OpenAI Gym与OpSim和StarCraft II模拟器的RL框架
DRL需要智能体与环境互动的许多情节来收集经验,一个标准的方法是通过平行数据收集来扩展。在这个项目中,HPC被用来扩展DRL算法,以支持智能体群体从成千上万的平行实例中学习,以解决C2的行动空间复杂性。ARL的FOB系统最初用于分布式训练,然后被移植到国防部超级计算资源中心(DSRC)的最新SCOUT系统。FOB系统是一个由64个节点组成的实验性异构集群,每个节点有一个英特尔8核至强CPU和64GB的内存。SCOUT是位于ARL DSRC的一个非保密的HPC-in-a-container系统,有22个训练节点和128个推理节点。SCOUT的每个计算节点都配备了IBM Power9 40核处理器,推理节点有256GB内存,训练节点有700GB内存。
同时,RLlib,一个由加州大学伯克利分校RISELab开发的可扩展RL框架的开源库,被用于执行分布式学习。RLlib提供了一个与框架无关的机制,以便在OpSim和StarCraft II上有效地扩展DRL神经网络架构的训练。该框架部署在HPC系统上,以展示RLlib算法在系统的多个节点上的扩展性,并提供可定制的神经网络模型和模拟环境的灵活性。
利用第2节所述的基础设施,我们为《星际争霸II》和OpSim环境开发了一个端到端的DRL框架,并进行了初步实验。在这一节中,我们将描述网络架构、实现和一些初步的实验结果。
我们使用第2.2节中描述的战术版《星际争霸II》训练了一个多输入和多输出的深度强化神经网络。我们使用了异步优势演员批判(A3C)算法,这是一种由多层卷积网组成的状态输入处理方法,长短期记忆(LSTM)递归层给网络增加了记忆。
在《星际争霸II》中,状态空间由7个大小为64x64的迷你地图特征层和13个大小为64x64的屏幕特征层地图组成,总共有20个64x64的二维图像(图9的左侧面板)。此外,它还包括13个非空间特征,包含玩家资源和建造队列等信息。这些游戏特征是用输入处理管道来处理的,如图10所示。星际争霸II》中的动作是函数形式的复合动作,需要参数和关于该动作要在屏幕上发生的位置的说明。例如,像 "攻击 "这样的动作被表示为一个函数,需要屏幕上的X-Y攻击位置。行动空间由行动标识符(即运行哪个行动)和两个空间行动(x和y)组成,这两个空间行动被表示为两个长度为64个实值项的向量,在0和1之间。 表2划分了观察空间、行动空间和《星际争霸II》模拟的奖励。
图10提供了星际争霸II任务中相互嵌入模型和A3C智能体的状态输入处理管道的概述。星际争霸II提供了三个主要的状态信息流:小地图层、屏幕层和非空间特征(如资源、可用行动和建造队列)。小地图和屏幕特征由相同的两层卷积神经网络(CNN)处理(顶部两行),以便分别提取地图的全局和局部状态的视觉特征表示。非空间特征通过一个具有非线性激活的全连接层进行处理。然后,这三个输出被连接起来,形成智能体的完整状态空间表示,以及基于状态的相互嵌入模型的部分。
图10 《星际争霸II》的状态输入处理
表2 《星际争霸II》模拟的观察空间、行动空间和奖励
A3C是优势行动者-批评算法的分布式版本,其中创建了行动者的多个平行副本,以同时执行行动和收集经验。让多个行为体收集经验可以提高探索效率,从而改善学习。我们使用的A3C智能体的结构类似于Mnih等人的Atari-net智能体,它是一个从Atari改编的A3C智能体,在SC2LE状态和行动空间上运行。我们对这个智能体做了一点修改,增加了一个LSTM层,因为Mnih等人的研究表明,增加模型的内存可以提高性能。我们的A3C智能体的结构如图11所示。
图11 A3C智能体的结构。这里显示的是一个完整的RL智能体及其与《星际争霸II》的连接示意图。作为典型的政策性智能体,这里的A3C智能体(绿色)从任务环境中获取状态和奖励信息,并使用这些信息来计算下一个时间步骤的行动,以及计算梯度来增加奖励最大化。
我们用20个并行的演员学习者来训练A3C模型,使用了8000个模拟的《星际争霸II》机器人的战斗,操作由DeepMind开发的手工制作的规则。如果BLUEFOR穿过瓦迪或OPFOR排被摧毁,则提供+10的正强化,如果BLUEFOR被摧毁则提供-10的负强化。
我们在《星际争霸II》的 "虎爪 "场景中对训练好的A3C模型进行了100次的测试。这些模型与具有随机行动的随机基线以及人类玩家与《星际争霸II》机器人进行的10场模拟战斗进行了比较。图12中提供了收集到的指标的汇总图,包括总的情节奖励和蓝军的伤亡人数。我们看到,与人类玩家相比,人工智能指挥官不仅取得了相当的表现,而且在任务中表现得稍好,同时还减少了蓝军的伤亡。
图12 与人类和随机智能体基线相比,训练有素的人工智能指挥官(A3C智能体)的总奖励和BLUEFOR伤亡情况。人工智能指挥官能够实现与人类基线相当(略好)的奖励,同时减少蓝军的伤亡。
为OpSim模拟环境开发了两种类型的指挥官。第一种是基于专家设计的规则引擎,由乔治亚州本宁堡的军事主题专家使用理论规则开发。第二种是DRL训练的神经网络,采用A2C算法训练的多输入多输出的LSTM神经网络。A2C与A3C类似,但没有异步部分。OpSim的RL界面支持多智能体训练,每个部队可以是基于规则的,也可以是人工智能指挥官。
政策网络首先在FOB的15个节点上进行训练,75个平行工作者收集了482k次模拟战斗,耗时36小时。此外,在SCOUT系统上应用和训练了局部切面位置和无目标奖励更新。有了更新的观察和奖励,39个平行工作者收集了175k次战斗经验,花了37小时。
观察空间由17个特征向量组成,其中观察空间是基于每个实体的设备传感器的部分观察。与S2CLE不同,OpSim目前不使用图像输入或屏幕图像的空间特征。行动空间主要包括简单的运动和交战攻击(表3)。
表3 OpSim模拟的观察空间、行动空间和奖赏
训练好的模型用100个推出的模拟结果进行评估,在检查站使用冻结政策,BLUFOR的平均奖励最高。在SCOUT上,4510号检查站的BLUFOR政策平均奖励达到了200,OPFOR政策平均奖励达到了-322的滚动平均值。对100次滚动的分析表明,经过DRL训练的BLUFOR智能体将损失从4左右降至0.5,而增加了OPFOR的损失(图13)。这一结果是通过采用仅使用战斗装甲连和战斗步兵连进行交战的策略达到的。它学会了利用BLUFOR最致命的部队与Abrams和Bradleys的策略,同时保护脆弱的资产不与OPFOR交战(图14)。
图13 主题专家和人工智能指挥员之间的实体损失比较
图14 一次推广的开始和结束的快照
作为DSI的一部分,为C2的DRL开发了两个新型测试平台。基于StarCraft II和OpSim。使用这些最先进的测试平台开发了端到端的DRL方法。该基础设施被移植到国防部的HPC系统中,以扩大训练的规模,进行平行数据收集。
初步实验结果显示,初步观察到DRL在没有预编码知识的情况下实现了有效和合理的C2,基于DRL的 "人工指挥官 "可以在模拟的旅级战斗中执行综合规划-执行过程。一些结果,特别是在《星际争霸II》的环境中,表明人工智能采取的策略与有能力的人类玩家的策略相当。它还表明,计算资源并不是人工智能在C2中的障碍;我们看到使用HPC系统学习的速度足够快,在37小时内就能收敛。总之,DSI的第一年提供了充分的证据,表明基于学习的人工智能有可能被用作未来军事行动C2的关键技术。