面向智能博弈的决策Transformer方法综述

智能博弈是认知决策智能领域的挑战性问题, 是辅助联合作战筹划与智能任务规划的关键支撑. 从协作式团队博弈、竞争式零和博弈和混合式一般和博弈共3 个角度梳理了智能博弈模型, 从认知角度出发定义了运筹型博弈（完全/ 有限理性）、不确定型博弈（经验/知识）、涌现探索型博弈（直觉+ 灵感）、群体交互型博弈（协同演化）共4 类智能博弈认知模型, 从问题可信任解、策略训练平台、问题求解范式共3 个视角给出智能博弈求解方案. 基于Transformer 架构重点梳理了架构增强（表示学习、网络组合、模型扩展）与序列建模（离线预训练、在线适变、模型扩展）共2 大类6 小类决策Transformer 方法, 相关研究为开展“离线预训练+ 在线适变”范式下满足多主体、多任务、多模态及虚实迁移等应用场景的决策预训练模型构建提供了初始参考. 为智能博弈领域的决策基石模型相关研究提供可行借鉴.

博弈一词的英文单词为 Game, 英文直译为游戏, 早年国内译为对策、赛局. 博弈问题的研究本质是通过将除己方外其他参与方的行为策略考虑在内制定己方对策过程. 未来军事对抗具有环境高复杂、信息不完整、博弈强对抗、响应高实时、自主无人化等突出特征, 无人集群自主协同、作战仿真推演和智能任务规划等挑战课题都亟需智能博弈相关技术的支撑. 协作与竞争是双生体, 广泛存在于认知决策博弈领域. 博弈智能是认知智能的高阶表现形式. 近年来, 借助各类计算机博弈平台, 面向智能博弈（intelligent gaming）的相关人工智能技术得到迅猛发展. 智能博弈本质是指协作、竞争或对抗场景下, 利用博弈理论分析问题、智能方法求解应对策略的过程. 人机对抗（human computer gaming）作为图灵测试的典型范式, 是测试人工智能（artificial intelligence, AI）技术程序的主要手段和基准[1] , 是智能博弈的重要表现形式. 智能博弈作为智能指挥与控制领域研究决策智能的基准挑战, 是当前研究决策大模型的试验场和果蝇. 当前围绕智能博弈问题的求解, 已然传统的“知识与搜索”、“博弈学习”范式过渡到“模型与适应”范式, 其中, 包括面向小模型的“预训练+微调”和面向大模型的“基石模型+情境学习”.

围绕人类认知能力的认知建模技术已然成为 AI 领域的前沿课题. 近年来, 随着 AI 技术的发展和 GPU 性能的逐年翻倍, AI 大模型/基石模型[2]在视觉与语言智能计算、智能博弈领域取得了快速发展. 基于大模型的 AI 生成内容（AI-generated context, AIGC）技术未来将成为一种基础设施, AI 生成行动（AIgenerated action, AIGA）相关技术（行为生成、模型生成）为决策问题求解提供了可行方案. 伴随着 2022年年末 ChatGPT 的出现, 各类基石的出现已然引发了 AI 各赛道里的“军备竞赛”, 但一般的语言能力无法完全匹配决策需要的推理能力, 如何构建“决策基石模型”已然成为当前 AI 与智能决策领域的前沿问题. Transformer 作为一种利用注意力机制来完成序列到序列变换的表示学习模型, 利用此类模型构建智能博弈问题的决策策略求解方法是热门研究方向. 基于 Transformer 的表示学习方法[3]和序列建模方法[4] 及多模态融合学习方法[5]引发了各大领域（自然语言处理、计算机视觉、语音与视频、智能博弈决策）的持续关注. LI 等[6]从表示学习、模型学习、序贯决策和通才智能体 4 个角度对基于 Transformer 的强化学习方法进行了综述分析. HU 等[7]从架构增强（特征表示、环境表示）, 轨迹优化（条件行为克隆、经典强化学习、预训练、泛化性）和典型应用（机器人操控、文字游戏、导航、自动驾驶）共 3 大类对基于 Trans原 former 的强化学习方法进行了总结对比分析. 当前围绕决策 Transformer 的方法可分为 3 大类：直接利用大语言模型类（百科、视频、互联网知识）、基于框架变换的表示及模型学习类（表示学习、环境学习）、基于决策问题重构的条件生成类（序列建模、行为生成、世界模型生成）. 如何为规划与决策领域的智能博弈问题设计新型求解框架仍充满挑战. 本文围绕智能博弈问题展开, 梳理各类问题的博弈模型, 创新性构建智能博弈认知模型, 探索性给出智能博弈问题的求解范式；重点梳理面向智能博弈问题求解的决策 Transformer 方法

成为VIP会员查看完整内容