陆战对抗中的智能体博弈策略生成方法

针对陆战对抗中智能体状态动作空间复杂和行为模式固定的问题, 提出任务分层架构下的博弈策略生成方法. 使用策略式博弈模型对陆战对抗问题进行分析建模, 给出智能体任务执行中的收益矩阵构建方法, 并通过求解混合策略, 使智能体行为同时具有合理性和多样性. 以陆军战术对抗兵棋推演为平台进行测试, 实验证明智能体策略可解释性强, 行为模式多样, 在与 AI 和人类选手对抗时都具有较高的胜率. 智能体是人工智能的一个基本术语, 广义的智能体包括人类、机器人、软件程序等[1] . 狭义的智能体是能感知环境, 根据环境变化作出合理判断和行动, 从而实现某些目标的计算机程序. 从感知序列集合到执行动作集合的映射也称为智能体的策略[2] . 智能体策略的研究对实现无人系统自主能力[3]和人机混合智能[4]具有重要意义. 决策指根据一定目标选择备选方案或动作的过程. 传统使用脚本规则[5]、有限状态机[6]、行为树[7]等方法进行智能体决策行为建模, 决策模型对应了智能体的策略. 这类智能体的策略具有较强的可解释性, 但是其需要大量的领域专家知识. 另一方面上述智能体通常使用基于专家知识的纯策略, 其行为模式是固定的, 在复杂对抗场景中存在适应性不强和灵活度不够的问题. 近年, 深度强化学习成为智能体策略生成的重要方法, 在 Atari 游戏[8]、围棋[9-11]、德州扑克[12]、无人驾驶[13]等领域取得了突破进展, 部分场景中已经达到或超越了人类专家水平. 然而基于强化学习的智能体在更为复杂的场景中面临着感知状态空间巨大、奖励稀疏、长程决策动作组合空间爆炸等难题[14] . 战争对抗作为一种复杂对抗场景, 一直是智能体策略生成研究的重点, 并越来越受到关注[15-17] , 但当前研究还缺少实质性的进展, 特别是在人机对抗中[18] , 人类对手策略变化造成的环境非静态性会使智能体显得呆板、缺少应变能力. 针对陆军战术级对抗场景中智能体状态动作空间复杂和行为模式固定的问题, 以中科院“庙算·智胜即时策略人机对抗平台”陆军战术对抗兵棋（以下简称“庙算”陆战对抗兵棋）为实验平台, 提出了基于博弈混合策略的智能体对抗策略生成方法. 本文工作主要有 3 个方面： 1）对陆战对抗中实体动作进行抽象、分层, 建立智能体任务分层框架, 降低问题求解的复杂度. 2）对陆战对抗实体任务中关键要素进行分析, 构建对抗问题博弈模型, 并给出收益矩阵的计算方法. 3）给出陆战对抗兵棋推演场景中智能体混合策略均衡的求解方法, 对本文所提方法的可行性进行了验证.