【MIT博士论文】非平稳多智能体环境中的有效学习，184页pdf - 专知VIP

会员服务 ·

23

强化学习 · 麻省理工学院 (MIT) · 博士论文 · 多智能体学习 ·

2023 年 4 月 26 日

【MIT博士论文】非平稳多智能体环境中的有效学习，184页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

多智能体强化学习（MARL）为一组人工智能代理提供了一个有原则的框架，使它们能够在人类专家水平上学习协作和/或竞争行为。多智能体学习环境本质上比单智能体学习解决了更复杂的问题，因为代理既与环境互动，也与其他代理互动。特别是，在MARL中，多个代理同时学习，导致在遇到的经验中产生自然的非平稳性，因此要求每个代理在其他代理策略可能发生较大变化的情况下调整其行为。本论文旨在从三个重要主题来解决多智能体学习中的非平稳性挑战：1）适应性，2）收敛性，3）状态空间。第一个主题解答了代理如何通过开发新的元学习框架来学习有效的适应策略，以应对其他代理不断变化的策略。第二个主题解答了代理如何适应并影响联合学习过程，使得基于新的博弈论解决方案概念，策略在学习结束时收敛到更理想的极限行为。最后，最后一个主题解答了如何基于知识共享和上下文特定抽象来减小状态空间大小，从而使学习复杂性受到非平稳性的影响较小。总之，本论文发展了理论和算法贡献，为上述关于非平稳性的主题提供了有原则的解答。本论文中开发的算法在多智能体基准领域的多样化套件中展示了其有效性，包括混合激励、竞争和合作环境的全谱。

成为VIP会员查看完整内容

46

相关内容

强化学习

强化学习（RL）是机器学习的一个领域，与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外，强化学习是三种基本的机器学习范式之一。强化学习与监督学习的不同之处在于，不需要呈现带标签的输入/输出对，也不需要显式纠正次优动作。相反，重点是在探索（未知领域）和利用（当前知识）之间找到平衡。该环境通常以马尔可夫决策过程（MDP）的形式陈述，因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于，后者不假设MDP的确切数学模型，并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

52+阅读 · 2023年4月18日

【斯坦福博士论文】智能机器人行为自适应学习，141页pdf

【斯坦福博士论文】智能机器人行为自适应学习，141页pdf

专知会员服务

54+阅读 · 2023年4月15日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

多智能体不确定性系统的自适应一致性问题研究

国家自然科学基金

6+阅读 · 2012年12月31日

大数据环境下基于视觉主题模型的视觉数据分类方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

随机偏微分方程的有效宏观建模和稀有事件

国家自然科学基金

0+阅读 · 2012年12月31日

基于主体学习的城市空间增长微动力模拟模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

交通行为非均衡演化与干预对策研究

国家自然科学基金

0+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Precision-aware Latency and Energy Balancing on Multi-Accelerator Platforms for DNN Inference

Arxiv

0+阅读 · 2023年6月8日

Scenic Routes with Weighted Points in 2D

Arxiv

0+阅读 · 2023年6月8日

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Arxiv

13+阅读 · 2022年7月28日

Learning Eco-Driving Strategies at Signalized Intersections

Arxiv

16+阅读 · 2022年4月26日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion

Arxiv

12+阅读 · 2021年4月27日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Arxiv

17+阅读 · 2018年5月31日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

麻省理工学院 (MIT)

多智能体学习

相关VIP内容

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

【普林斯顿博士论文】智能体和机制的学习算法，201页pdf

专知会员服务

52+阅读 · 2023年4月18日

【斯坦福博士论文】智能机器人行为自适应学习，141页pdf

【斯坦福博士论文】智能机器人行为自适应学习，141页pdf

专知会员服务

54+阅读 · 2023年4月15日

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

专知会员服务

30+阅读 · 2023年3月6日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

112+阅读 · 2022年10月6日

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

【CMU博士论文】《多任务环境下的学习原则：概率论的视角》

专知会员服务

32+阅读 · 2022年9月23日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知会员服务

104+阅读 · 2022年9月21日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知会员服务

105+阅读 · 2022年9月1日

【CMU博士论文】通过记忆的元强化学习，118页pdf

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

10+阅读 · 2022年10月15日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知

6+阅读 · 2022年10月12日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

【MIT博士论文】对抗场景中鲁棒且可扩展的多智能体强化学习，123页pdf

专知

8+阅读 · 2022年9月21日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

如何稳健决策？MIT最新博士论文《鲁棒决策的端到端学习》234页pdf

专知

4+阅读 · 2022年9月1日

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

《用于控制、探索和安全的样本高效深度强化学习》里尔大学207页博士论文

专知

5+阅读 · 2022年7月27日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

相关基金

人类步行机理认知下的双足机器人步态与智能协同进化理论基础

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

多智能体不确定性系统的自适应一致性问题研究

国家自然科学基金

6+阅读 · 2012年12月31日

大数据环境下基于视觉主题模型的视觉数据分类方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

随机偏微分方程的有效宏观建模和稀有事件

国家自然科学基金

0+阅读 · 2012年12月31日

基于主体学习的城市空间增长微动力模拟模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

交通行为非均衡演化与干预对策研究

国家自然科学基金

0+阅读 · 2008年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

Precision-aware Latency and Energy Balancing on Multi-Accelerator Platforms for DNN Inference

Arxiv

0+阅读 · 2023年6月8日

Scenic Routes with Weighted Points in 2D

Arxiv

0+阅读 · 2023年6月8日

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Arxiv

13+阅读 · 2022年7月28日

Learning Eco-Driving Strategies at Signalized Intersections

Arxiv

16+阅读 · 2022年4月26日

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Deep Learning for Weakly-Supervised Object Detection and Object Localization: A Survey

Arxiv

16+阅读 · 2021年5月26日

Relational Learning with Gated and Attentive Neighbor Aggregator for Few-Shot Knowledge Graph Completion

Arxiv

12+阅读 · 2021年4月27日

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Arxiv

20+阅读 · 2020年3月10日

Few-shot Learning: A Survey

Few-shot Learning: A Survey

Arxiv

363+阅读 · 2019年4月10日

Rethinking Knowledge Graph Propagation for Zero-Shot Learning

Arxiv

17+阅读 · 2018年5月31日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员