该项目的目标是创建一个能够在名为 "战斗空间(Battlespace)"的游戏域中选择良好行动的智能体。像 "战斗空间 "这样的序列域是规划问题的重要测试平台,因此,美国国防部将此类域用于兵棋推演。我们开发的智能体结合了蒙特卡洛树搜索(MCTS)和深度 Q 网络(DQN)技术,努力在游戏环境中导航、避开障碍物、与对手互动并夺取旗帜。本文将重点介绍我们探索的编码技术,以呈现存储在 Python 类中的复杂结构化数据,这是智能体的必要前体。

图 1. Battlespace棋盘示例,来自 Mid Game 的快照: 由不同颜色代表的四名玩家正在进行游戏。紫色和红色单元为一队,部署在棋盘的北半部。黄色和绿色单位在第二队,部署在棋盘的南半部。我们可以看到,棋手们都采用了安全的下棋策略,将旗帜放置在棋盘边缘,尽可能远离敌方领土,并在旗帜前方部署单元。在本图中,我们可以看到空中层和地面层的叠加,因为内置用户界面就是这样渲染游戏的。

在连续领域进行决策时,需要考虑当前决策可能导致的未来状态。这就是规划问题的本质,而兵棋推演就是规划问题中特别重要的一个实例,它是一种模拟军事演习,用于在受控环境中测试战略和作战计划。在规划问题的背景下,很容易设想出人工智能的各种应用,包括决策支持系统(DSS)、智能对手、场景生成等。这项工作将主要关注可用于前两种应用的智能体: 决策支持系统和智能对手。因此,我们不仅要寻找能够选择高质量行动的智能体,还要寻找能够分析多玩家互动、快速适应不断变化的条件并提供可解释见解的智能体。

美国国防部推出了兵棋推演平台 Battlespace。它包括部分可观测性、多玩家模式(包括合作模式和竞争模式)、多级地形、具有不同属性的可玩单元、测试智能体的延展性等关键功能。我们的目标是训练一个有足够能力的智能体,使其成为 DSS 背后的引擎,主要用于原地工作,目的是在兵棋推演时做出更好的决策;其次用于回顾分析,目的是在下一次兵棋推演中做出更好的决策。

由于结构复杂,作战空间域面临着几个关键挑战,我们将在第 2 节中详细介绍。其中需要应对的重要挑战如下。

  • 行动空间稀疏性: 战斗空间有一个字面意义上的 "什么都不做",但也有许多其他对游戏状态影响不大的动作(旋转)。

  • 状态空间稀疏性: 战斗空间采用网格结构,大部分单元格都是空闲的。

  • 输入空间大: Battlespace 的结构化数据具有大量属性,这导致编码状态类所需的层数激增,也会造成计算瓶颈。

  • 多智能体协作策略: 战斗空间包括多个玩家,每个玩家控制多个单元,在这种格局下学习策略是很困难的,这加剧了计算瓶颈

本项目涉及对 Battlespace 领域的结构化数据进行编码、在模拟游戏环境中训练智能体的实验。训练目标是让智能体学会如何在环境中导航、避开障碍物、与对手互动以及夺旗。通过使用我们的编码算法,我们可以将以结构化数据(本例中为状态类)形式存在的棋盘观察结果转换为张量。这样,我们就可以将复杂的状态作为神经网络(NN)的输入,而神经网络则作为函数近似器来学习游戏动态。在本项目报告中,我们将概述本项目,介绍我们开发的方法,并展示取得的成果。

图 2. Battlespace 中使用的类层次结构。我们通过以下图形来表示抽象类(每个类都没有填充颜色): 单元为三角形,可移动单元为矩形,不可移动单元为椭圆形。玩家部署的单元是有纹理的,也就是说那些填充为实心的单元在部署阶段不会被用户部署。玩家控制单元的填充颜色为蓝色,这意味着那些填充颜色为红色的单元在部署阶段后不受用户控制。

图 3. 人工智能体如何做出决定,黑框中显示名词,箭头上显示动词,以及流水线中每一步上方涉及的数据。该过程从棋盘开始,通过按派别分离游戏对象,将棋盘转换为棋盘张量。在这里,绿色坦克即将移动,我们假设绿色飞机和蓝色坦克对绿色坦克是友好的,而红色坦克是敌人,因此我们将它们的类型和方向编码到张量中。然后,卷积神经网络将棋盘张量作为输入,输出结果概率,智能体再为每个行动打分,最后得到一个矩阵。在对得分矩阵执行域约束后,智能体对得分应用软最大值。最后,为了选择行动,智能体从结果分布中采样。青色部分仅在训练期间激活。与典型的方法相比,用于这项任务的大多数人工智能架构都会直接映射棋盘 → 行动(一个不透明的方框)或(棋盘、行动) → 值(必须运行多次才能生成行动/解释)。

成为VIP会员查看完整内容
23

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《关于影响力的兵棋推演平台》2023最新100页论文
专知会员服务
54+阅读 · 2023年9月1日
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《关于影响力的兵棋推演平台》2023最新100页论文
专知会员服务
54+阅读 · 2023年9月1日
相关资讯
相关基金
国家自然科学基金
34+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员