针对陆战对抗中智能体状态动作空间复杂和行为模式固定的问题, 提出任务分层架构下的博弈策略生成方法. 使用策略 式博弈模型对陆战对抗问题进行分析建模, 给出智能体任务执行中的收益矩阵构建方法, 并通过求解混合策略, 使智能体行为同 时具有合理性和多样性. 以陆军战术对抗兵棋推演为平台进行测试, 实验证明智能体策略可解释性强, 行为模式多样, 在与 AI 和 人类选手对抗时都具有较高的胜率. 智能体是人工智能的一个基本术语, 广义的智 能体包括人类、机器人、软件程序等[1] . 狭义的智能 体是能感知环境, 根据环境变化作出合理判断和行 动, 从而实现某些目标的计算机程序. 从感知序列集 合到执行动作集合的映射也称为智能体的策略[2] . 智 能体策略的研究对实现无人系统自主能力[3]和人机混 合智能[4]具有重要意义. 决策指根据一定目标选择备选方案或动作的过 程. 传统使用脚本规则[5]、有限状态机[6]、行为树[7]等 方法进行智能体决策行为建模, 决策模型对应了智 能体的策略. 这类智能体的策略具有较强的可解释 性, 但是其需要大量的领域专家知识. 另一方面上述 智能体通常使用基于专家知识的纯策略, 其行为模 式是固定的, 在复杂对抗场景中存在适应性不强和 灵活度不够的问题. 近年, 深度强化学习成为智能体 策略生成的重要方法, 在 Atari 游戏[8]、围棋[9-11]、德 州扑克[12]、无人驾驶[13]等领域取得了突破进展, 部分 场景中已经达到或超越了人类专家水平. 然而基于 强化学习的智能体在更为复杂的场景中面临着感知 状态空间巨大、奖励稀疏、长程决策动作组合空间 爆炸等难题[14] . 战争对抗作为一种复杂对抗场景, 一直是智能 体策略生成研究的重点, 并越来越受到关注[15-17] , 但 当前研究还缺少实质性的进展, 特别是在人机对抗 中[18] , 人类对手策略变化造成的环境非静态性会使智 能体显得呆板、缺少应变能力. 针对陆军战术级对抗场景中智能体状态动作空 间复杂和行为模式固定的问题, 以中科院“庙算·智胜 即时策略人机对抗平台”陆军战术对抗兵棋(以下简 称“庙算”陆战对抗兵棋)为实验平台, 提出了基于博 弈混合策略的智能体对抗策略生成方法. 本文工作 主要有 3 个方面: 1)对陆战对抗中实体动作进行抽象、分层, 建 立智能体任务分层框架, 降低问题求解的复杂度. 2)对陆战对抗实体任务中关键要素进行分析, 构建对抗问题博弈模型, 并给出收益矩阵的计算 方法. 3)给出陆战对抗兵棋推演场景中智能体混合策略均衡的求解方法, 对本文所提方法的可行性进行 了验证.

成为VIP会员查看完整内容
94

相关内容

有人/ 无人集群任务规划系统集成框架
专知会员服务
160+阅读 · 2023年6月14日
知识与数据互补的战术级兵棋行为决策框架设计与实现
专知会员服务
92+阅读 · 2023年5月30日
基于内在动机的深度强化学习探索方法综述
专知会员服务
39+阅读 · 2023年5月13日
战术先验知识启发的多智能体双层强化学习
专知会员服务
106+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
142+阅读 · 2023年5月4日
基于深度强化学习的对手建模方法研究综述
专知会员服务
80+阅读 · 2023年4月17日
面向多智能体博弈对抗的对手建模框架
专知会员服务
153+阅读 · 2022年9月28日
兵棋推演的智能决策技术与挑战
专知会员服务
208+阅读 · 2022年7月5日
兵棋推演的智能决策技术与挑战(自动化学报)
专知会员服务
86+阅读 · 2022年4月24日
「基于课程学习的深度强化学习」研究综述
面向多智能体博弈对抗的对手建模框架
专知
11+阅读 · 2022年9月28日
兵棋推演的智能决策技术与挑战
专知
24+阅读 · 2022年7月5日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
36+阅读 · 2020年3月15日
17种深度强化学习算法用Pytorch实现
新智元
30+阅读 · 2019年9月16日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2022年6月14日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关VIP内容
有人/ 无人集群任务规划系统集成框架
专知会员服务
160+阅读 · 2023年6月14日
知识与数据互补的战术级兵棋行为决策框架设计与实现
专知会员服务
92+阅读 · 2023年5月30日
基于内在动机的深度强化学习探索方法综述
专知会员服务
39+阅读 · 2023年5月13日
战术先验知识启发的多智能体双层强化学习
专知会员服务
106+阅读 · 2023年5月9日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
142+阅读 · 2023年5月4日
基于深度强化学习的对手建模方法研究综述
专知会员服务
80+阅读 · 2023年4月17日
面向多智能体博弈对抗的对手建模框架
专知会员服务
153+阅读 · 2022年9月28日
兵棋推演的智能决策技术与挑战
专知会员服务
208+阅读 · 2022年7月5日
兵棋推演的智能决策技术与挑战(自动化学报)
专知会员服务
86+阅读 · 2022年4月24日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
15+阅读 · 2009年12月31日
国家自然科学基金
45+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员