在许多现实世界的应用中,多主体决策是一个普遍存在的问题,如自动驾驶、多人视频游戏和机器人团队运动。多智能体学习的主要挑战包括其他智能体行为的不确定性,以及由联合观察、行动和策略空间的高维性导致的维数灾难。由于未知的智能体意图和意外的、可能的对抗性行为,这些挑战在对抗性场景中进一步加剧。本文提出了鲁棒和可扩展的多智能体学习方法,目标是高效地构建可以在对抗性场景中鲁棒运行的自主智能体。通过观察智能体的行为准确推断其意图的能力是鲁棒决策的关键。在这种情况下,一个挑战是对手实际行为的高度不确定性,包括潜在的欺骗,这可能与先验行为模型有很大的不同。捕捉自我主体和对手之间的交互以及对双方主体可用信息的推理,对于建模这种欺骗行为至关重要。本文采用博弈论对手建模方法解决了这一意图识别问题,该方法基于一种新的多样性驱动的信念空间集合训练技术,用于实现对欺骗的鲁棒性**。为了将集成方法扩展到具有多个智能体的场景,本文提出了一种可扩展的多智能体学习技术,该技术通过稀疏注意力机制促进了接近最优的联合策略学习。该机制的结果是集中的参数更新,这大大提高了采样效率**。此外,本文还提出了一种新的隐式集成训练方法,该方法利用多任务学习和深度生成策略分布,以较低的计算和内存成本获得更好的鲁棒性。将鲁棒的意图识别和可扩展的多智能体学习结合起来,可以实现鲁棒的、可扩展的离线策略学习。然而,完全自主的智能体还需要能够不断地从新的环境和对等智能体中学习(并适应)。因此,本文还提出了一种安全的适应方法,既能适应新的对手,又能在对抗场景中对任何可能的对手剥削保持低可利用性。本文的贡献有助于构建自主代理,使其能够在具有不确定性的竞争多智能体场景下做出鲁棒的决策,并通过计算效率学习安全地适应以前未见的对等智能体。

成为VIP会员查看完整内容
95

相关内容

麻省理工学院(Massachusetts Institute of Technology,MIT)是美国一所研究型私立大学,位于马萨诸塞州(麻省)的剑桥市。麻省理工学院的自然及工程科学在世界上享有极佳的盛誉,该校的工程系曾连续七届获得美国工科研究生课程冠军,其中以电子工程专业名气最响,紧跟其后的是机械工程。其管理学、经济学、哲学、政治学、语言学也同样优秀。
【CMU博士论文】多视图上下文理解的知识增强表示学习
专知会员服务
33+阅读 · 2022年8月11日
【硬核书】迁移学习多智能体强化学习系统,131页pdf
专知会员服务
139+阅读 · 2022年7月8日
【MIT博士论文】使用神经符号学习的鲁棒可靠智能系统
专知会员服务
38+阅读 · 2022年7月5日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
【博士论文】多任务学习视觉场景理解,140页pdf
专知会员服务
88+阅读 · 2022年4月5日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
123+阅读 · 2020年8月27日
国家自然科学基金
252+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
12+阅读 · 2019年2月26日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关基金
国家自然科学基金
252+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员