【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

在许多现实世界的应用中，多主体决策是一个普遍存在的问题，如自动驾驶、多人视频游戏和机器人团队运动。多智能体学习的主要挑战包括其他智能体行为的不确定性，以及由联合观察、行动和策略空间的高维性导致的维数灾难。由于未知的智能体意图和意外的、可能的对抗性行为，这些挑战在对抗性场景中进一步加剧。本文提出了鲁棒和可扩展的多智能体学习方法，目标是高效地构建可以在对抗性场景中鲁棒运行的自主智能体。通过观察智能体的行为准确推断其意图的能力是鲁棒决策的关键。在这种情况下，一个挑战是对手实际行为的高度不确定性，包括潜在的欺骗，这可能与先验行为模型有很大的不同。捕捉自我主体和对手之间的交互以及对双方主体可用信息的推理，对于建模这种欺骗行为至关重要。本文采用博弈论对手建模方法解决了这一意图识别问题，该方法基于一种新的多样性驱动的信念空间集合训练技术，用于实现对欺骗的鲁棒性**。为了将集成方法扩展到具有多个智能体的场景，本文提出了一种可扩展的多智能体学习技术，该技术通过稀疏注意力机制促进了接近最优的联合策略学习。该机制的结果是集中的参数更新，这大大提高了采样效率**。此外，本文还提出了一种新的隐式集成训练方法，该方法利用多任务学习和深度生成策略分布，以较低的计算和内存成本获得更好的鲁棒性。将鲁棒的意图识别和可扩展的多智能体学习结合起来，可以实现鲁棒的、可扩展的离线策略学习。然而，完全自主的智能体还需要能够不断地从新的环境和对等智能体中学习(并适应)。因此，本文还提出了一种安全的适应方法，既能适应新的对手，又能在对抗场景中对任何可能的对手剥削保持低可利用性。本文的贡献有助于构建自主代理，使其能够在具有不确定性的竞争多智能体场景下做出鲁棒的决策，并通过计算效率学习安全地适应以前未见的对等智能体。

成为VIP会员查看完整内容

105

相关内容

麻省理工学院 (MIT)

关注 102

麻省理工学院（Massachusetts Institute of Technology，MIT）是美国一所研究型私立大学，位于马萨诸塞州（麻省）的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉，该校的工程系曾连续七届获得美国工科研究生课程冠军，其中以电子工程专业名气最响，紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

专知会员服务

65+阅读 · 2022年9月25日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【CMU博士论文】多视图上下文理解的知识增强表示学习

专知会员服务

35+阅读 · 2022年8月11日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日