在许多现实世界的应用中,多主体决策是一个普遍存在的问题,如自动驾驶、多人视频游戏和机器人团队运动。多智能体学习的主要挑战包括其他智能体行为的不确定性,以及由联合观察、行动和策略空间的高维性导致的维数灾难。由于未知的智能体意图和意外的、可能的对抗性行为,这些挑战在对抗性场景中进一步加剧。本文提出了鲁棒和可扩展的多智能体学习方法,目标是高效地构建可以在对抗性场景中鲁棒运行的自主智能体。通过观察智能体的行为准确推断其意图的能力是鲁棒决策的关键。在这种情况下,一个挑战是对手实际行为的高度不确定性,包括潜在的欺骗,这可能与先验行为模型有很大的不同。捕捉自我主体和对手之间的交互以及对双方主体可用信息的推理,对于建模这种欺骗行为至关重要。本文采用博弈论对手建模方法解决了这一意图识别问题,该方法基于一种新的多样性驱动的信念空间集合训练技术,用于实现对欺骗的鲁棒性。为了将集成方法扩展到具有多个智能体的场景,本文提出了一种可扩展的多智能体学习技术,该技术通过稀疏注意力机制促进了接近最优的联合策略学习。该机制的结果是集中的参数更新,这大大提高了采样效率。此外,本文还提出了一种新的隐式集成训练方法,该方法利用多任务学习和深度生成策略分布,以较低的计算和内存成本获得更好的鲁棒性。将鲁棒的意图识别和可扩展的多智能体学习结合起来,可以实现鲁棒的、可扩展的离线策略学习。然而,完全自主的智能体还需要能够不断地从新的环境和对等智能体中学习(并适应)。因此,本文还提出了一种安全的适应方法,既能适应新的对手,又能在对抗场景中对任何可能的对手剥削保持低可利用性。本文的贡献有助于构建自主代理,使其能够在具有不确定性的竞争多智能体场景下做出鲁棒的决策,并通过计算效率学习安全地适应以前未见的对等智能体。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“R123” 就可以获取《【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习,123页pdf》专知下载链接