“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

该项目的目标是创建一个能够在名为 "战斗空间（Battlespace）"的游戏域中选择良好行动的智能体。像 "战斗空间 "这样的序列域是规划问题的重要测试平台，因此，美国国防部将此类域用于兵棋推演。我们开发的智能体结合了蒙特卡洛树搜索（MCTS）和深度 Q 网络（DQN）技术，努力在游戏环境中导航、避开障碍物、与对手互动并夺取旗帜。本文将重点介绍我们探索的编码技术，以呈现存储在 Python 类中的复杂结构化数据，这是智能体的必要前体。

图 1. Battlespace棋盘示例，来自 Mid Game 的快照：由不同颜色代表的四名玩家正在进行游戏。紫色和红色单元为一队，部署在棋盘的北半部。黄色和绿色单位在第二队，部署在棋盘的南半部。我们可以看到，棋手们都采用了安全的下棋策略，将旗帜放置在棋盘边缘，尽可能远离敌方领土，并在旗帜前方部署单元。在本图中，我们可以看到空中层和地面层的叠加，因为内置用户界面就是这样渲染游戏的。

在连续领域进行决策时，需要考虑当前决策可能导致的未来状态。这就是规划问题的本质，而兵棋推演就是规划问题中特别重要的一个实例，它是一种模拟军事演习，用于在受控环境中测试战略和作战计划。在规划问题的背景下，很容易设想出人工智能的各种应用，包括决策支持系统（DSS）、智能对手、场景生成等。这项工作将主要关注可用于前两种应用的智能体：决策支持系统和智能对手。因此，我们不仅要寻找能够选择高质量行动的智能体，还要寻找能够分析多玩家互动、快速适应不断变化的条件并提供可解释见解的智能体。

美国国防部推出了兵棋推演平台 Battlespace。它包括部分可观测性、多玩家模式（包括合作模式和竞争模式）、多级地形、具有不同属性的可玩单元、测试智能体的延展性等关键功能。我们的目标是训练一个有足够能力的智能体，使其成为 DSS 背后的引擎，主要用于原地工作，目的是在兵棋推演时做出更好的决策；其次用于回顾分析，目的是在下一次兵棋推演中做出更好的决策。

由于结构复杂，作战空间域面临着几个关键挑战，我们将在第 2 节中详细介绍。其中需要应对的重要挑战如下。

行动空间稀疏性：战斗空间有一个字面意义上的 "什么都不做"，但也有许多其他对游戏状态影响不大的动作（旋转）。
状态空间稀疏性：战斗空间采用网格结构，大部分单元格都是空闲的。
输入空间大： Battlespace 的结构化数据具有大量属性，这导致编码状态类所需的层数激增，也会造成计算瓶颈。
多智能体协作策略：战斗空间包括多个玩家，每个玩家控制多个单元，在这种格局下学习策略是很困难的，这加剧了计算瓶颈

本项目涉及对 Battlespace 领域的结构化数据进行编码、在模拟游戏环境中训练智能体的实验。训练目标是让智能体学会如何在环境中导航、避开障碍物、与对手互动以及夺旗。通过使用我们的编码算法，我们可以将以结构化数据（本例中为状态类）形式存在的棋盘观察结果转换为张量。这样，我们就可以将复杂的状态作为神经网络（NN）的输入，而神经网络则作为函数近似器来学习游戏动态。在本项目报告中，我们将概述本项目，介绍我们开发的方法，并展示取得的成果。

图 2. Battlespace 中使用的类层次结构。我们通过以下图形来表示抽象类（每个类都没有填充颜色）：单元为三角形，可移动单元为矩形，不可移动单元为椭圆形。玩家部署的单元是有纹理的，也就是说那些填充为实心的单元在部署阶段不会被用户部署。玩家控制单元的填充颜色为蓝色，这意味着那些填充颜色为红色的单元在部署阶段后不受用户控制。

图 3. 人工智能体如何做出决定，黑框中显示名词，箭头上显示动词，以及流水线中每一步上方涉及的数据。该过程从棋盘开始，通过按派别分离游戏对象，将棋盘转换为棋盘张量。在这里，绿色坦克即将移动，我们假设绿色飞机和蓝色坦克对绿色坦克是友好的，而红色坦克是敌人，因此我们将它们的类型和方向编码到张量中。然后，卷积神经网络将棋盘张量作为输入，输出结果概率，智能体再为每个行动打分，最后得到一个矩阵。在对得分矩阵执行域约束后，智能体对得分应用软最大值。最后，为了选择行动，智能体从结果分布中采样。青色部分仅在训练期间激活。与典型的方法相比，用于这项任务的大多数人工智能架构都会直接映射棋盘 → 行动（一个不透明的方框）或（棋盘、行动） → 值（必须运行多次才能生成行动/解释）。

成为VIP会员查看完整内容