美国国防部高级研究计划局(DARPA)空战进化(ACE)计划 "通过使用人机协作斗狗作为其挑战问题,寻求增加对战斗自主性的信任。这也是进入复杂的人机协作的一个切入点"(https://www.darpa.mil/program/air-combat-evolution )。为了给ACE创造条件,创建了AlphaDogfight试验计划,以探索人工智能(AI)智能体是否能够有效地学习基本的战斗机机动。DARPA与约翰-霍普金斯大学应用物理实验室(APL)签订了合同,以创建一个竞技场,举办模拟战斗机之间的近距离空战--可以训练自主智能体来击败对手的飞机。在斗狗试验中,AI智能体相互竞争,获胜者与人类飞行员竞争。在试验结束时,该计划表明,AI智能体可以超越人类专家的性能。APL对该计划的成功至关重要:实验室创建了模拟基础设施,开发了对手的AI智能体,并评估了竞争对手的AI解决方案。本文详细介绍了APL在通过该计划推进战斗自主性方面的作用。
未来空战的愿景是无人驾驶飞行器(UAV)由人工智能(AI)算法在高度复杂和动态环境中操作。这些人工智能驱动的无人机将需要在团队中与有人驾驶的平台无缝运作,协调和合作以完成任务目标。为了最有效地与他们的自主伙伴组成团队,飞行员将需要对他们的行动和能力产生信任。美国国防部高级研究计划局(DARPA)启动了空战进化(ACE)计划,为空战开发可信的、可扩展的人工智能能力。ACE计划试图通过首先在建模和模拟环境中建立和评估人工智能算法,然后在次规模的无人机上飞行这些算法,最后在F-16等全规模飞机上飞行来实现这一目标。
作为ACE的前身,AlphaDogfight Trials(ADT)计划是作为大型计划的风险降低工作而设立的。这个基于竞争的活动试图回答三个核心问题:
1.是否有可能教人工智能算法进行视距内的空战?
2.我们能否让不同的公司,包括那些不是传统国防承包商的公司参与进来,以获取创新的人工智能概念?
3.新颖的计划结构能否加速新的人工智能技术和应用的发展?
通过与DARPA紧密合作,APL在ADT项目的形成和发展中发挥了关键作用。在我们作为试验协调小组(TCT)的第一项职责中,我们协助DARPA制定征集提案的公告,然后作为主题专家向DARPA评估提案的小组提供建议。竞争者是在自主研究合作网络(ARCNet)下征集的,该联盟汇集了来自学术界、工业界和政府的专家,为作战人员开发自主技术。DARPA从这些提案中选择了八家在技术和组织上各不相同的公司,从一个大学研究机构到几个小公司到一个大型国防承包商,参加试验。在整个ADT项目中,我们作为DARPA和八个竞争团队之间的主要渠道,合作推进整个项目的进展情况。
对于试验的建模和模拟环境,我们开发了一个名为 "竞技场 "的框架,人工智能算法在这里被训练和测试,进行一对一(1-v-1)的战斗,APL开发的算法将在这里与选定的竞争对手对决。为了测试竞技场并为竞争的自主智能体的性能建立一个基线,我们在比赛过程中开发了许多自主对手智能体。这些智能体逐渐变得更加复杂,其中最先进的智能体是使用深度强化学习(RL)技术开发的,通过自我游戏训练,没有人类的输入。在第一次ADT竞赛活动之前,这些智能体被提供给参赛者,以便他们能够训练和改进自己的算法。随着智能体的不断更新,各队可以逐步开发和训练他们的AI智能体,以对抗他们。
为了使DARPA能够确定最有前途的人工智能算法,ADT围绕一系列竞赛活动进行规划,在这些活动中对算法进行测试。在赛事之间,APL举办了争夺赛。在前两项比赛中,各小组在一系列建设性的交战中面对APL开发的敌方智能体。在第三项活动中,由于冠状病毒大流行,该计划被延长后,各小组与对方的制剂进行竞争。试验在为期3天的虚拟比赛中达到高潮,并向公众播放,各队在模拟的战斗场景中与APL开发的AI智能体和对方进行竞争,冠军则与人类飞行员进行竞争。迄今为止,最后的赛事ADT 3在YouTube上获得了超过44万的浏览量,改变游戏规则的结果得到了航空和航天界以及五角大楼的认可。在这篇文章中,我们首先描述了我们创建一个通用模拟环境的技术方法。然后我们描述了我们为训练而开发的脚本和人工智能对手智能体。最后,我们概述了从计划开始到虚拟决赛的竞争情况。
对于模拟环境,我们开发了Coliseum,一个AI智能体训练和竞争的舞台。它是一个建设性的、比实时更快的框架,将开源的飞行动力学软件JSBSim与APL开发的中间件、自主性算法和可视化软件结合起来,模拟1-v-1的狗斗。图1显示了模拟环境的概况。APL开发的和竞争者开发的智能体算法通过ADT自主性框架插入到ADT仿真环境中。该框架使用OpenAI Gym启发的标准连接到ADT Gym-JSBSim环境,允许简单集成竞争对手的智能体开发工具。Gym-JSBSim环境计算专门为ADT派生的飞机状态,管理底层JSBSim飞行动力学实例,并将信息推送给可视化工具。
图1. ADT的模拟环境。该框架是使用开源(OS)和APL开发的中间件的组合开发的。ADT的竞争者只负责他们的自主智能体。利用操作系统软件使该团队能够快速创建一个框架,以满足计划的时间要求。
为了实现交战的现场直播,ADT模拟环境包含一个ACE查看器应用程序。ACE浏览器使用来自模拟环境的IEEE 1278分布式交互模拟标准协议数据单元包来显示交战情况。该应用程序建立在开源的CesiumJS世界渲染器上,用于3-D地理显示,显示交战中的飞机、飞机轨迹和武器交战区。相关信息,如交战时间、每架飞机的战术数据、智能体的指令输入和实际飞行控制系统的响应,以及每架飞机的健康状况,都覆盖在Cesium显示器上,如图2所示。ACE查看器的开发是为了模仿内利斯空军基地和法隆海军航空站在训练任务后向飞行员汇报情况的能力。为了清晰和连贯,每个参赛者都使用了与整个赛事记分牌色调相匹配的独特色彩方案。
图2. ADT 3中使用的ACE查看器的注释图像。中央的图像是ACE浏览器,它所显示的信息被贴上了标签。
为了使人类专家飞行员能够与AI智能体进行对抗,我们为人类飞行员创建了一个ADT虚拟现实(VR)系统。这个系统为飞行员提供的信息旨在与给AI智能体的信息相匹配。图3中提供了这种交战信息的图形摘要。除了提供典型的战斗机显示器,如传统的平视显示器,VR头盔还提供了ADT模拟的具体组件,以提高飞行员对威胁和他们的相对位置的态势感知。
开发ADT平视显示器是一个反复的过程,现任和前任飞行员不仅帮助优化了显示的信息,而且还优化了显示的方式。
图3. ADT 3平视显示器的注释图像。显示给飞行员的信息是有标签的。
为了训练和评估,APL开发了许多对手的自主智能体。这些智能体的复杂程度从初级智能体,到使用有限状态机的脚本对手,再到使用深度RL技术开发的高度先进的智能体,这些智能体通过自我游戏进行训练,没有人类的输入。图4显示了APL开发的对手智能体的图形摘要。
图4. APL开发的AI智能体。APL在整个ADT期间开发了一些对手智能体,使用各种方法来模拟战术上相关的对手。
如前所述,AI智能体跨越了一系列的复杂性和能力。最不复杂(也最没有能力)的是初级智能体。它们的目的是测试和验证它们的行动在模拟环境中以正确的频率和间隔传播。它们不打算与对手竞争或欺骗对手,事实上,它们对对手根本没有反应。
比初级智能体高一个层次的是基本智能体。虽然这些智能体中的一些仍然是非反应性的,但其他智能体具有基于简单的基本战斗机机动性(BFM)所激发的规则的反应性逻辑。基本智能体建立在一个简单的比例-积分-衍生控制器上,有三个循环(内部、中间和外部)。该控制器允许程序员以更离散的方式实现命令(例如,设置一个期望的高度),而不是模拟环境中的 "手握油门和杆"(HOTAS)输入。(典型的战斗机在驾驶舱油门杆和飞行控制杆上配置了各种按钮和开关;飞行员可以通过将手放在油门和杆上以及使用这些按钮和开关来执行所有的功能并驾驶飞机)。外循环使用两架飞机的相对位置、速度和航向来计算所需的速度和航向变化,以便智能体在几个简单的轮廓中拦截其目标。这些计算是通过建立少量的相对距离和角度的情况,并通过定义一个固定的命令,手动调整以在每种情况下执行可接受的命令。例如,在大距离(10英里以上)和低相对角度(<60°)的情况下,选择最大的速度,航向直指目标。中间环路暴露了绝对航向、高度和速度的设置点;这些命令可以来自外环路的配置文件,如果需要,也可以在智能体的逻辑中被覆盖。内循环接收中循环的命令并将其映射到HOTAS命令。
下一层次的智能体被称为脚本智能体。这些智能体包含一个小的状态机,根据战斗的状态选择交战策略。然后,这些智能体使用与其他基本智能体相同的设定点来采用或实施该策略。例如,如果一个智能体检测到对手从后面逼近,它可以选择一个 "闪光 "策略,迅速降低速度以迫使对手超速。
我们最复杂的智能体是使用深度RL开发的。RL是一种通过试验和错误生成理想的决策(行为)序列的方法。这种算法方法已被证明在雅达利游戏、《GO》和《星际争霸II》中表现得比人类专家更好。
RL的一般范式要求智能体在一个环境中采取一些可能的行动之一。然后,环境提供关于智能体的当前状态的反馈,以及奖励(正面或负面)。然后,智能体可以通过反复的互动学习环境的奖励结构,并努力产生一种行动策略(政策),在与环境的一系列互动(游戏)结束时使累积奖励最大化。最终的结果是一个将环境状态映射到智能体行动的政策,并且表现良好,如高奖励所表明。
RL特别适合于在ADT环境中生成一个高度熟练的智能体,因为1-v-1的斗狗模拟比实时快得多,因此可以快速连续地进行许多互动。此外,游戏有固定的规则,可以转移到非常适合RL的奖励结构中,而且开源学习环境(AI Gym)的软件钩子已经基本到位了。有了正确的学习架构、算法和训练,RL智能体将拥有广泛的知识,知道如何对其他智能体在环境中的状态作出反应,而实际上并没有通过试验和错误对它们进行训练。
为了创建智能体,我们成功地使用了对抗性RL在竞技场中的自我游戏形式。我们试图开发一种平衡的学习算法,这种算法易于实现,能够在复杂的环境中学习,并且采样效率高--这意味着它需要较少的模拟运行才能表现良好。
2018年,APL武力投射部门的一个团队开始开发一个能够训练深度RL算法的通用框架,以玩对称和非对称游戏。在这个名为Athena Inspired的独立研发项目中,该团队开发了一套设计原则,结合开源库来创建一个对抗性学习架构。该架构的编纂实现被称为Coliseum。Coliseum支持ADT期间的高级智能体开发,包括RL智能体的生产。
图5. 对抗性自我游戏的说明。自我游戏是一种智能体训练模式,其中智能体在模拟环境中与自身的历史副本混合进行游戏。
如图5所示,Coliseum使用对抗性自我游戏来管理智能体开发。它维护着一个历史智能体库,最新的智能体通过与这些历史智能体进行游戏来进行训练。新智能体的性能通过计算其在这些游戏中的胜率而定期评估。一旦新智能体达到了理想的胜率,它就被复制到存储库中,成为另一个历史智能体,而正在训练的智能体的版本号就会增加。当新的智能体在与历史智能体的自我博弈中进行训练时,这个过程会重复进行。使用这个过程,当前的训练智能体将总是能够从分布中选择,其中池中的最佳智能体是它自己。
竞技场通过使用基于技能的对手概率分布,从资源库中为训练智能体选择对手。虽然具体的逻辑和分布是可定制的,但技术较好的对手更有可能从分布中被选中。同样地,不那么熟练的对手通常被选择的频率较低。这个过程确保了智能体是针对具有类似技能水平的不同对手进行训练的;这对防止过度拟合和促进技能的不断提高都是必要的。
竞技场使用Elo系统来估计智能体相对于彼此的技能水平。Elo是Arpad Elo发明的用于国际象棋选手排名的评级系统,已被用于各种不同的对称零和游戏(即一个智能体赢和一个智能体输的游戏)。在Elo系统中,一个游戏的结果被认为是围绕智能体技能的高斯分布的样本。为了产生一个准确的Elo评级,智能体必须对对手的许多游戏进行采样,以确定相对的技能水平。虽然还有其他排名系统,但Elo仍然是零和对抗游戏中最受欢迎的。
ADT的模拟环境在游戏结束时提供一个真实的分数。有两种主要技术可以减轻稀疏奖励信号的影响:奖励整形和课程学习。
奖励塑造利用当前的观察空间和专家知识,更频繁地向智能体提供奖励信号。尽管使用专家知识有助于确保经常为 "好 "的行为提供计算的奖励,但它容易激励那些往往是无意的或不符合游戏精神的行为。奖励的形成也限制了智能体寻找最佳政策的整体能力,因为部分解决方案是由开发者预先指定的。
在课程学习中,智能体首先学习解决一个较容易的任务,以发展某种行为或政策,从而转移到一个较难的任务。课程学习要求游戏设计者创建一组场景,在多次迭代中逐渐向真正的任务靠拢。在开发智能体时,我们使用了课程学习与斗兽场的自我游戏相结合的方式来实现强大的性能。在每个评估期之后,如果达到了预期的胜率,Coliseum就会把课程表推到一个迭代,使其更接近最终的游戏。使用一个精心设计的课程可以防止使用奖励塑造的需要。
APL制定了ADT竞赛结构,并为8名竞争者计划和执行了3次试验和多次争夺赛(见图6)。在ADT 1和ADT 2期间,即分别于2019年11月和2020年1月在APL举行的为期2天的活动中,8个团队--极光飞行系统公司、EpiSci、乔治亚理工学院、Heron系统公司、洛克希德-马丁公司、Perspecta实验室、PhysicsAI和SoarTech--在一系列建设性的斗犬交战中与APL开发的AI智能体进行了竞争。在ADT 2.5期间,即2020年5月因冠状病毒大流行而延长计划后增加的虚拟比赛中,竞争者向APL提交了他们自己的智能体,并在循环比赛中相互竞争。决赛,ADT 3,是2020年8月在APL通过ZoomGov和YouTube直播的为期3天的虚拟比赛。活动包括飞行简报,一系列同时进行的批量运行,通过仪表板进行现场性能跟踪,以及个别运行的回放/简报。
图6. ADT竞赛概况。DARPA选择的竞争者是极光飞行系统公司、EpiSci、乔治亚理工学院、Heron系统、洛克希德-马丁公司、Perspecta实验室、PhysicsAI和SoarTech。(来源:DARPA ACE计划)。
决赛旨在为人工智能在空战中的未来作用提供关键性的见解。该活动原计划在美国空军的AFWERX创新中心举行,然后在内利斯空军基地(都在内华达州)举行,但由于COVID-19大流行病的影响而不得不推迟。与其继续推迟活动,DARPA决定在APL举办虚拟活动。APL和DARPA团队合作,以确保为期3天的公共活动对参赛者和观众来说都是无缝衔接和参与的。
ADT 3于2020年8月18-20日举行,从APL的智能系统中心通过ZoomGov网络研讨会和YouTube进行直播。第一天,八支队伍与APL开发的AI智能体进行竞争。第2天是竞争对手之间的循环对决。第三天开始,前四名队伍进行单淘汰赛,然后冠军与F-16飞行员进行人工智能与人类的对决。
作为TCT,APL团队为开发、宣传、实施和广播ADT 3开展了一系列活动。该团队包括来自APL各部门的工作人员,他们拥有各种技能和专业知识,创建了一个全面的ADT 3品牌注册网站,包括活动描述、竞争对手的信息、媒体资源(图片、视频和新闻稿)以及ADT可视化展示。在活动开始前,APL和DARPA进行了协调,以最大限度地扩大宣传,APL和DARPA在活动前和活动期间都发布了公共媒体新闻稿。APL的宣传人员还制作了视觉材料,包括宣传视频、竞赛标志和在APL拍摄的竞赛照片。图7显示了其中的一些内容。此外,APL团队在比赛前和比赛期间为ADT 3注册者提供技术支持。
在APL的智能系统中心体育馆,活动空间的布局被完全重新设计,以适应从现场活动到虚拟直播活动的转变。改进后的布局的核心是ADT演播室,它容纳了 "控制区 "的舞台和显示器(下文将详细讨论,如图8所示)以及VR竞赛空间(图9)。指示牌、灯光和其他专业制作元素被纳入布局中,为使用多台摄像机的广播创造了一个身临其境的比赛环境。斗狗比赛是在APL制作团队称之为AI竞技场的区域进行并展示的(图10)。尽管ADT的最初目标并不包括演示如何举办一场精良的虚拟赛事,但该团队肯定会迎接这个意外的挑战。
图7. ADT的一些品牌元素。APL团队创建了各种视觉材料,包括品牌注册网站、宣传视频、竞赛标志和在APL举行的竞赛照片。
图8. ADT 3演播室,进行了虚拟直播活动。背景是控制区的评论员,空战和自主方面的专家在那里提供分析和评论。
如前所述,ADT的主要目标之一是吸引和激发传统国防部承包商以外的合作伙伴。为了帮助实现这一目标,ADT被安排为电子竞技比赛(通常是包括观众和评论员的视频游戏竞技活动,类似于传统的体育竞技活动)。在ADT 2,我们引入了控制区,仿照ESPN的体育中心,由空战和自动驾驶方面的专家提供评论。控制区是以太空中飞行员可以反击任何防御性机动并保持其控制位置的区域命名的。在ADT的控制区,专家们讨论了人工智能和斗狗的基本知识,以及人工智能和人类飞行员如何训练。控制区的评论员对斗狗比赛进行了分析和评论,既具有教育意义又具有娱乐性。
图9. ADT 3的VR竞赛空间,人类专家飞行员将与最好的AI智能体进行狗斗。图中显示的是一个戴着VR头盔的飞行员与一个AI智能体进行战斗。显示屏上的图像是飞行员在驾驶舱内的斗狗画面。
试验的第3天预计会有最多的观众,因此是制作最精良的。赛前活动提供了对最后一天比赛的展望,对第1天和第2天的回顾,已经被淘汰的四支参赛队(EpiSci、乔治亚理工学院、Perspecta和SoarTech)的团队视频,以及对所有八个团队的现场采访。与第1天和第2天不同的是,在整个比赛过程中,所有比赛都是按顺序播放的,并有控制区的现场解说。在第一场半决赛中,排名第三的PhysicsAI队与排名第二的Lockheed Martin队进行了比赛。洛克希德公司在20次交战中以13比2的杀伤力表现出对物理学AI的统治力。在第二场半决赛中,排名第一的Heron Systems队对阵排名第四的Aurora队,Heron队以17比2的击杀率酣畅淋漓地击败了Aurora。决赛由第一和第二名赫伦队和洛克希德-马丁队争夺ADT冠军的权利。苍鹭队以16比4的击杀率取得了胜利。苍鹭队成功的关键是它能够对对手实施积极的、高度精确的前线炮击。
第三天的最后部分是重头戏--ADT冠军苍鹭和F-16武器教官课程毕业生(呼号Banger)之间的展示性对决。在对决之前,DARPA战略技术办公室(STO)主任蒂姆-格雷森博士和当时的DARPA智能体主任彼得-海纳姆博士就ADT的影响进行了现场评论。控制区的分析员对决赛进行了总结,对活动进行了任务介绍,并采访了来自VR竞赛领域的Banger。
人类与人工智能的对决是一组从不同高度的中性起始条件下发起的五次交战。图11是第一次交战时YouTube的屏幕截图。ACE浏览器提供了战斗的概况,同时还显示了比赛空间中的班杰明和F-16飞行员的视角。
在人类与AI的对决中,Heron的AI智能体占了上风,在合并时使用了快速杀伤,并以5比0获胜。Heron AI智能体的高度精确的武器使用对采用类似F-16 BFM战术的Banger来说太难了。只有在最后的交战中,班杰尔通过使用积极的机外机动来引出战斗,设法在那些早期的合并中幸存下来,但这位F-16武器教官课程的毕业生最终还是输了。
尽管Heron系统公司的AI智能体横扫了Banger,但我们应该注意到,其目标最终不是用自动飞行员取代人类飞行员。相反,它是将人工智能与人类结合在一起,以建立更有效的战斗力--ADT的结果代表了建立人类对其未来自动化同行的信心的一种方式。
图10. ADT 3人工智能竞技场和生产空间。上图,TCT在AI舞台上执行比赛。底部,APL制作团队在制作和播出节目时。
图11. ADT 3人类与AI的屏幕截图,来自YouTube。这张来自第一次交战的快照显示了ACE浏览器,它提供了战斗的概况,同时还显示了人类飞行员Banger在竞争空间中的情况以及F-16飞行员的视角。在这场最后的对决中,AI智能体的高度精确的武器使用证明对人类飞行员来说太困难了,Heron系统公司以5比0获胜。
ADT的目标是开发能够在模拟狗斗中击败对手飞机的智能自主智能体,并在模拟空战中展示其能力。在此过程中,ADT既与既有的伙伴合作,也与新的伙伴合作,增加了技术和组织的多样性。我们APL作为TCT,负责评估该计划;开发模拟基础设施和对手的自主性;以及开发、规划和主持三个ADT竞赛活动。
这种以竞赛为基础的降低风险的活动试图回答三个核心问题:
1.是否有可能教人工智能算法进行视距内的空战?
2.我们能否让不同的伙伴群体参与进来,捕捉创新的人工智能概念?
3.新颖的计划结构能否加速新的人工智能技术和应用的发展?
在试验结束后,我们可以自信地回答这三个问题都是肯定的:
1.到了ADT 2,领先的团队在短短4个月后就产生了类似于BFM的算法。到了ADT 3,大多数团队已经产生了能够执行多样化的进攻性、中立性和防御性BFM的智能体。此外,顶尖团队展示了与人类专家飞行员正面交锋并获胜的能力,尽管有一些不现实的特征,如完美的状态信息。
2.获胜团队Heron Systems不是国防部的传统合作伙伴,排名前四的PhysicsAI也不是。这两个团队都开发了新颖的方法来训练和开发他们的算法,使他们能够与同行竞争并取得优异成绩。洛克希德-马丁公司,一个大型的、成熟的国防合作伙伴,表明大公司也可以组建能够快速开发新技术的团队。
3.具有共同模拟环境的竞争结构使政府能够评估整个项目的表现。尽管没有奖金,但竞争结构本身是推动团队表现的重要动力。如果采用更传统的方法,在项目结束时进行最终交付,可能会限制发现和绩效。
简而言之,ADT超过了它的既定目标,ADT 3的受众范围大大超过了项目开始时的想象。执行试验成功的关键是通过迭代不断改进的动力以及APL、DARPA和竞争对手之间的合作精神。活动结束后,蒂姆-格雷森博士指出,"结果显示了未来机载作战系统和涉及人机共生概念的巨大前景"。但将人工智能引入空战的工作才刚刚开始。尽管ADT令人印象深刻,但在这项技术准备就绪之前,仍有技术和文化挑战需要克服。
在后续的DARPA ACE计划中,APL将作为实验集成团队。我们将利用ADT的开发和分析,通过在多个项目阶段评估自主控制算法来降低技术风险,从建模和模拟开始,到亚规模的实战无人机,然后最终到全规模的实战飞机,目标是为空战开发可信的、可扩展的人工智能能力。
未来的战争将由先进的人工智能和自主系统来定义,这些系统将超越常规的载人部队的思维、机动性和性能。这些系统将不会取代人类,而是与他们协同工作。未来的战斗将以机器的速度进行,时间线被压缩,系统的机动性和敏捷性更强。凭借复杂的行为和决策,这些系统将拥有接近最佳的决策和复杂的协作动态行为。ADT提供了对人工智能和空战交汇处可能出现的情况的初步了解。随着这些能力的发展,从ADT学到的经验将成为未来发展的基础,确保人工智能空战解决方案是强大的、安全的、有效的和可信赖的。