《利用卷积神经网络通过强化学习开发稳健的战斗行为》132页论文

强化学习（RL）的成功，如《星际争霸》和《DOTA 2》等视频游戏达到了高于人类的性能水平，这就提出了关于该技术在军事建设性模拟中的未来作用的问题。本研究的目的是使用卷积神经网络（CNN）来开发人工智能（AI）Agent，能够在具有多个单位和地形类型的简单场景中学习最佳行为。这篇论文试图纳入一个可用于军事建设性模拟领域的多Agent训练方案。八个不同的场景，都有不同的复杂程度，被用来训练能够表现出多种类型战斗行为的Agent。总的来说，结果表明，人工智能Agent可以学习在每个场景中实现最佳或接近最佳性能所需的强大战术行为。研究结果还表明，对多Agent训练有了更好的理解。最终，CNN与RL技术的结合被证明是一种高效可行的方法，可以在军事建设性模拟中训练智能Agent，其应用有可能在执行实战演习和任务时节省人力资源。建议未来的工作应研究如何最好地将类似的深度RL方法纳入现有的军事记录构建性模拟项目中。

引言

A. 战斗建模和战争

正确预测对手在战争中的战略或战术行为的愿望与人类进行这些战争的能力一样古老[1]。在中国古代，像魏黑和围棋这样的游戏最初被用作加强军事和政治领导人的战略思维能力的方法。后来，罗马人利用沙盘在战役或战斗前讨论自己和敌人的可能行动。然而，直到19世纪初，普鲁士人用他们的兵棋推演（Kriegsspiel）才开始利用具有严格规则的游戏来预测军事交战的可能结果。虽然这些兵棋推演在接下来的几十年里在世界各地的许多武装部队中越来越受欢迎，但进行必要计算的能力有限，总是限制了这些基于棋盘的兵棋推演所能达到的复杂程度。此外，棋盘游戏的物理限制限制了设计者简化行为和游戏元素，而不是努力追求真实。然而，计算能力的提高和用户友好的图形界面使设计者在20世纪末能够以更高的复杂性来模拟兵棋推演的规则和游戏中的组件数量。此外，计算机的使用允许实施基于计算机的对手，在基于硬编码规则的人工智能软件的基础上成功地与人类玩家进行比赛。

今天，基于计算机的兵棋推演，也被称为建设性模拟[2]，已经成为整个国防部（DOD）的一个有用工具。它们使军事领导人能够进一步学习和发展他们在那些通常被认为成本太高或太危险而无法定期演练的领域的行动程序。领导人有能力在实际执行前针对多种红色力量设计使用他们的部队，使他们有机会在不承担任何额外风险的情况下验证他们的机动方案。在战略层面上，大型单位的工作人员经常使用建设性的模拟作为训练方法[3]，领导人可以在模拟环境中进行投入，但他们不参与确定场景的结果[2]。

B. 范围和问题陈述

在基于计算机的兵棋推演中用来表现对抗行为的方法，需要由场景设计者通过脚本直接编码，或者使用真人玩家进行所有红军的决策。这两种方法都能提供足够的分辨率来表现对抗性行为，但每种方法都有其缺点[4]。对于低级别的场景来说，直接对特定行为进行编码可能是可行的，但随着场景的扩大，单位的数量和可能的行动对于脚本的控制来说变得太有挑战性，往往会导致不现实的行为[4]。对于大型场景，使用人类玩家作为红色力量可能会提供更真实的结果，但额外的人力资源会造成后勤方面的压力，而且整体的生产力也受限于单个玩家的知识和能力。

解决这个问题的一个可能的方法可能在于利用人工神经网络。在计算机游戏领域，这种方法最近已被证明是相当成功的。例如，对于实时战略游戏《星际争霸II》，一个人工神经网络被开发出来，打败了99.8%经常参加在线比赛的玩家[5]。虽然在计算机游戏领域，人工神经网络的利用最近取得了巨大的进展，但在军事用途的兵棋推演领域，研究才刚刚开始。在最近的研究中，Boron[6]和Sun等人[7].已经表明，人工神经网络适合解决简单军事兵棋推演场景中的挑战。基于以前的工作，特别是Boron[6]的工作，本论文旨在提高所使用的军事场景的复杂性。虽然Boron使用了简单的多层感知器（MLP）神经网络，但在处理己方和敌方单位的动态起始位置以及敌人的动态行为时，这种结构被证明是不合适的。此外，所使用的场景被限制在战场上最多五个单位[6]。在本论文中，将建立一个支持卷积神经网络（CNN）架构的训练模拟，包括多个单位和地形类型以克服这些限制。此外，将在一个确定的场景中应用多智能体训练，以测试这种方法是否可以成功地用于军事建设性模拟领域。

成为VIP会员查看完整内容