人工智能技术的发展极大推动了智能博弈决策问题求解范式的变革,从最优解、均衡解到适 变解,如何构建基于生成式大模型的智能博弈自适应决策智能体充满挑战。博弈强对抗环境中兵力 分配和多实体协同是研究排兵布阵和作战协同的核心课题。基于技能、排序和偏好元博弈模型构建 的策略强化学习、策略博弈树搜索与策略偏好投票选择方法,设计了满足生成时规划的大模型智能 体架构。该架构可对齐指挥员意图,具有可行性、适用性、扩展性,可为自适应决策过程提供可解 释性策略推荐。从基座模型构建、目标引导博弈强化学习和开放式元博弈策略学习分析了关键技术 需求。期望为强化学习类模型、博弈学习类模型与生成式大语言模型结合的交叉研究提供参考。

为了推进美国战略与预算评估中心提出的“决 策中心战”,DARPA 于 2017 年提出了马赛克战概 念,兰德公司利用上校布洛托博弈(Colonel Blotto Game)研究了马赛克战作战资源分配问题[1]。作战 资源分配主要包括兵力、火力、武器和后勤等子问 题,上校布洛托博弈作为一类典型的兵力布势问题 模型[2],为排兵布阵问题研究提供了基准参考。作 为上校布洛托博弈模型的泛化形式,强权外交 (Diplomacy)这款桌游(特别是无通信版本)很好地 刻画了多方一般和多阶段不完美信息博弈的动态 交互过程[3]。为了利用智能博弈相关技术研究作战 协同问题,DARPA 启动“打破游戏规则的人工智 能探索 ”(Gamebreaker Artificial Intelligence Exploration)项目[4],致力于开发人工智能并将其应 用到现有的开放世界视频游戏中,以定量评估游戏 平衡,确定显著有助于游戏平衡的基本参数,并从 新功能、战术和规则修改等角度探索导致游戏不稳 定性的变量,旨在为美军创造更大的作战优势,或 在对手寻求优势时寻求对抗的平衡。 如何生成多种类型行动方案计划为指挥员推 荐策略选项是联合全联指控中为对手制造多重困 境(dilemma)的主要方法途径[5]。利用军事人工智能 技术辅助决策推荐是当前的研究前沿[6]。早期的一 些研究采用抽象桌游(abstract board games, ABG) 来实时分析大规模对抗问题,如 Stilman 等[7]基于 语言几何(linguistic geometry, LG)工具与博弈理论 构建的私人参谋长,Serge 等[8]基于语言几何与对 抗情报推理决策构建的计算机模拟程序 LG-RAID,其中语言几何作为软件程序的大脑负责 预测对手的作战行动方案。近年来,围绕多方对抗 问题,2020 年 DARPA 开展了针对“对战敌方战术 的构建性机器学习”(constructive machine learning battle for enemy tactics, COMBAT)项目[9],利用自 然语言处理提取非结构化文本信息,利用博弈论与 强化学习等方法生成应对美军的作战行动方案,旨 在为仿真环境提供敌军旅级兵力行动模拟。2023 年美国海军陆战队大学以 Command 为基准环境, 开展了将生成式人工智能应用于仿真与兵棋推演 的相关探索[10]。Hinton 等[11]分析了生成式人工智 能在兵棋推演领域的想定生成、对手 AI、红队等 方面的应用前景。许霄等[12]提出了作战行动序列引 导和约束的联合作战兵棋推演智能决策框架,设计 了目标驱动的自适应作战控制和任务式指令驱动 的战术任务策略优化模块。 人工智能技术的跨越式发展为智能博弈决策 问题求解定义了新范式,从传统的优化理论最优 解、博弈理论均衡解,逐渐过渡至如今的模型理论 适变解[13]。为智能指控系统构建多范式融合的博弈 决策策略推荐方法充满挑战。 本文围绕智能博弈自适应决策挑战,基于元博 弈模型设计了决策大模型智能体的指控思维链,以 满足生成时规划,最后从决策基座模型构建、智能 博弈决策策略学习和人机协同决策方式共三个方 面分析了关键技术需求。

成为VIP会员查看完整内容
33

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
大语言模型视角下的智能规划方法综述
专知会员服务
108+阅读 · 4月20日
基于无人协同博弈数字孪生的系统模型构建
专知会员服务
36+阅读 · 3月28日
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
47+阅读 · 3月13日
下一代战略博弈推演系统研究
专知会员服务
80+阅读 · 1月27日
智能博弈决策策略求解新视角实证分析
专知会员服务
54+阅读 · 1月9日
智能集群系统的强化学习方法综述
专知会员服务
70+阅读 · 1月1日
无人集群博弈对抗系统仿真验证及决策关键技术综述
专知会员服务
87+阅读 · 2023年11月23日
面向智能博弈的决策Transformer方法综述
专知会员服务
165+阅读 · 2023年4月14日
面向多智能体博弈对抗的对手建模框架
专知会员服务
145+阅读 · 2022年9月28日
FPGA加速深度学习综述
专知会员服务
67+阅读 · 2021年11月13日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
20+阅读 · 2022年7月13日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
时空序列预测方法综述
专知
19+阅读 · 2020年10月19日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
【紫冬精选】国内近三年模式分类研究现状综述
中国科学院自动化研究所
12+阅读 · 2018年4月3日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
349+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
125+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型视角下的智能规划方法综述
专知会员服务
108+阅读 · 4月20日
基于无人协同博弈数字孪生的系统模型构建
专知会员服务
36+阅读 · 3月28日
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
47+阅读 · 3月13日
下一代战略博弈推演系统研究
专知会员服务
80+阅读 · 1月27日
智能博弈决策策略求解新视角实证分析
专知会员服务
54+阅读 · 1月9日
智能集群系统的强化学习方法综述
专知会员服务
70+阅读 · 1月1日
无人集群博弈对抗系统仿真验证及决策关键技术综述
专知会员服务
87+阅读 · 2023年11月23日
面向智能博弈的决策Transformer方法综述
专知会员服务
165+阅读 · 2023年4月14日
面向多智能体博弈对抗的对手建模框架
专知会员服务
145+阅读 · 2022年9月28日
FPGA加速深度学习综述
专知会员服务
67+阅读 · 2021年11月13日
相关资讯
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
20+阅读 · 2022年7月13日
基于知识图谱的问答系统
PaperWeekly
21+阅读 · 2021年2月8日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
时空序列预测方法综述
专知
19+阅读 · 2020年10月19日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
【紫冬精选】国内近三年模式分类研究现状综述
中国科学院自动化研究所
12+阅读 · 2018年4月3日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员