在复杂环境中能够进行复杂策略决策的自主智能体的开发是人工智能的核心目标。本文提出了一个在模拟网格世界战场环境中发现和解释策略的框架。我们利用AlphaZero算法——一种将蒙特卡洛树搜索与深度神经网络相结合的强大强化学习方法——来训练智能体。关键在于,该神经网络组件采用了Transformer架构。这项工作的主要贡献在于所提出的方法:利用Transformer内部的自注意力机制来深入理解智能体的决策过程,具体而言,通过可视化展示网络在选择行动时关注战场的哪些区域。该方法不仅旨在开发高性能的智能体,同时也致力于增强其学习所得策略的可解释性。

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
微信扫码咨询专知VIP会员