【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf - 专知

会员服务 ·

0

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

2022 年 9 月 21 日 专知

在许多现实世界的应用中，多主体决策是一个普遍存在的问题，如自动驾驶、多人视频游戏和机器人团队运动。多智能体学习的主要挑战包括其他智能体行为的不确定性，以及由联合观察、行动和策略空间的高维性导致的维数灾难。由于未知的智能体意图和意外的、可能的对抗性行为，这些挑战在对抗性场景中进一步加剧。本文提出了鲁棒和可扩展的多智能体学习方法，目标是高效地构建可以在对抗性场景中鲁棒运行的自主智能体。通过观察智能体的行为准确推断其意图的能力是鲁棒决策的关键。在这种情况下，一个挑战是对手实际行为的高度不确定性，包括潜在的欺骗，这可能与先验行为模型有很大的不同。捕捉自我主体和对手之间的交互以及对双方主体可用信息的推理，对于建模这种欺骗行为至关重要。本文采用博弈论对手建模方法解决了这一意图识别问题，该方法基于一种新的多样性驱动的信念空间集合训练技术，用于实现对欺骗的鲁棒性。为了将集成方法扩展到具有多个智能体的场景，本文提出了一种可扩展的多智能体学习技术，该技术通过稀疏注意力机制促进了接近最优的联合策略学习。该机制的结果是集中的参数更新，这大大提高了采样效率。此外，本文还提出了一种新的隐式集成训练方法，该方法利用多任务学习和深度生成策略分布，以较低的计算和内存成本获得更好的鲁棒性。将鲁棒的意图识别和可扩展的多智能体学习结合起来，可以实现鲁棒的、可扩展的离线策略学习。然而，完全自主的智能体还需要能够不断地从新的环境和对等智能体中学习(并适应)。因此，本文还提出了一种安全的适应方法，既能适应新的对手，又能在对抗场景中对任何可能的对手剥削保持低可利用性。本文的贡献有助于构建自主代理，使其能够在具有不确定性的竞争多智能体场景下做出鲁棒的决策，并通过计算效率学习安全地适应以前未见的对等智能体。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“R123” 就可以获取《【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

8

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知会员服务

42+阅读 · 2022年10月25日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知

6+阅读 · 2022年9月24日

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

专知

3+阅读 · 2022年9月23日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知

5+阅读 · 2022年7月8日

多智能体系统的聚类一致问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

多维时滞非线性协议下的多智能体系统一致性及协调控制

国家自然科学基金

0+阅读 · 2012年12月31日

基于多尺度拓扑匹配流的宽基线基础矩阵估计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于灵敏性分析和隐因素发现的复杂系统脆弱性演化机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

深部断续裂隙岩石强度特性及其变形破坏机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于矩阵与图理论的多智能体一致性分析研究

国家自然科学基金

2+阅读 · 2011年12月31日

大跨度弦支结构的鲁棒性理论及试验研究

国家自然科学基金

0+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Backward Reachability Analysis of Neural Feedback Loops: Techniques for Linear and Nonlinear Systems

Arxiv

0+阅读 · 2022年11月21日

A Framework for Auditable Synthetic Data Generation

Arxiv

0+阅读 · 2022年11月21日

ARC -- Actor Residual Critic for Adversarial Imitation Learning

Arxiv

0+阅读 · 2022年11月19日

Bayesian autoencoders for data-driven discovery of coordinates, governing equations and fundamental constants

Arxiv

0+阅读 · 2022年11月19日

On the Optimal Feedback Law in Stochastic Optimal Nonlinear Control

Arxiv

1+阅读 · 2022年11月19日

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Arxiv

15+阅读 · 2021年2月9日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

VIP会员

相关主题

多智能体学习

多智能体强化学习

相关VIP内容

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知会员服务

42+阅读 · 2022年10月25日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知会员服务

82+阅读 · 2022年10月19日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知会员服务

147+阅读 · 2022年7月8日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知会员服务

91+阅读 · 2022年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

如何确保强化学习可靠？苏黎世联邦理工Turchetta, Matteo博士论文《强化学习中的安全性和鲁棒性》，218页pdf

专知

9+阅读 · 2022年10月25日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】联邦学习实用方法，143页pdf

【MIT博士论文】联邦学习实用方法，143页pdf

专知

6+阅读 · 2022年9月24日

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

【MIT博士论文】非线性系统鲁棒验证与优化，123页pdf

专知

3+阅读 · 2022年9月23日

【MIT博士论文】非参数因果推理的算法方法，424页pdf

【MIT博士论文】非参数因果推理的算法方法，424页pdf

专知

4+阅读 · 2022年9月20日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

【硬核书】迁移学习多智能体强化学习系统，131页pdf

【硬核书】迁移学习多智能体强化学习系统，131页pdf

专知

5+阅读 · 2022年7月8日

相关基金

多智能体系统的聚类一致问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于模糊逻辑的大规模强化学习理论及方法

国家自然科学基金

7+阅读 · 2014年12月31日

多维时滞非线性协议下的多智能体系统一致性及协调控制

国家自然科学基金

0+阅读 · 2012年12月31日

基于多尺度拓扑匹配流的宽基线基础矩阵估计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于灵敏性分析和隐因素发现的复杂系统脆弱性演化机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

深部断续裂隙岩石强度特性及其变形破坏机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于矩阵与图理论的多智能体一致性分析研究

国家自然科学基金

2+阅读 · 2011年12月31日

大跨度弦支结构的鲁棒性理论及试验研究

国家自然科学基金

0+阅读 · 2011年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

21+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

ModelDiff: A Framework for Comparing Learning Algorithms

Arxiv

0+阅读 · 2022年11月22日

Backward Reachability Analysis of Neural Feedback Loops: Techniques for Linear and Nonlinear Systems

Arxiv

0+阅读 · 2022年11月21日

A Framework for Auditable Synthetic Data Generation

Arxiv

0+阅读 · 2022年11月21日

ARC -- Actor Residual Critic for Adversarial Imitation Learning

Arxiv

0+阅读 · 2022年11月19日

Bayesian autoencoders for data-driven discovery of coordinates, governing equations and fundamental constants

Arxiv

0+阅读 · 2022年11月19日

On the Optimal Feedback Law in Stochastic Optimal Nonlinear Control

Arxiv

1+阅读 · 2022年11月19日

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Equilibrium Refinements for Multi-Agent Influence Diagrams: Theory and Practice

Arxiv

15+阅读 · 2021年2月9日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

大家都在搜

久别重逢话双塔

无人机集群

软件无线电

国防科技创新

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员