【UIUC博士论文】高效多智能体深度强化学习，130页pdf - 专知VIP

会员服务 ·

41

多智能体 · 强化学习 · 博士论文 ·

2023 年 1 月 14 日

【UIUC博士论文】高效多智能体深度强化学习，130页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

深度强化学习(RL)在各个领域取得了显著的成功，包括在围棋和国际象棋等游戏中的使用。最近，深度多智能体强化学习(MARL)引起了广泛关注，因为大量现实世界的问题可以自然地在MARL环境中表示。例如，自主车辆与无人机或机器人编队的协调控制需要多个智能体根据局部观察采取行动并协调其行为。然而，单智能体深度强化学习和多智能体深度强化学习都面临着一个共同的挑战:数据效率低和训练时间长。本文向解决该问题迈出了一步:如何使(多智能体)深度强化学习更有效，即如何使用更少的数据和减少训练时间?本文从五个方面解决深度强化学习的训练时间长和数据效率低的问题:(1)并行高通量训练;(2)更好的表示学习;(3)迁移学习;(4)高效探索;(5)训练智能体以利用外部知识。对于1)，为了实现更高的强化学习训练吞吐量，我们提出了一个快速强化学习训练框架，该框架并行收集数据，而不牺牲强化学习算法的数据效率。对于2)，研究了图卷积网络的使用，以捕获MARL中常用的集中式批评器的排列不变性质。我们发现这可以导致更有效的学习。研究了一种以物体为中心的表示，将多智能体RL算法扩展到复杂的视觉环境。3)为了让强化学习智能体利用经过训练的智能体的"知识"，本文提出了一个迁移学习框架，该框架允许学生模型利用多个教师模型的"知识"。我们发现这种迁移可以导致更快的学习。对于4)，研究了协调的多智能体探索，这允许智能体协调它们的探索努力，并更快地学习。最后，对于5)，本文提出了"知识询问" (AFK)，一个学习生成语言命令以查询有意义的知识的智能体，以更有效地解决给定的任务。综上所述，本文研究了提高深度强化学习数据效率和训练时间的方法。我们相信，通过更短的训练时间和更好的数据效率，(多智能体)深度强化学习可以应用于各种现实世界的问题，本文提出的方法使我们更接近这一目标。

成为VIP会员查看完整内容

74

相关内容

多智能体

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【港科大博士论文】高效迁移学习的低资源自然语言理解

【港科大博士论文】高效迁移学习的低资源自然语言理解

专知会员服务

34+阅读 · 2022年8月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

专知

9+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

云计算环境下基于协作的动态资源分配与调度算法研究

国家自然科学基金

7+阅读 · 2013年12月31日

复杂规则实时检测的模型和算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于实物模型的多智能体群避撞与汇聚性的协同控制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于符号表达与多元逼近的智能控制的稳定性分析与控制设计

国家自然科学基金

0+阅读 · 2012年12月31日

基于图的大规模异质信息网络的匹配查询关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑连通性保持与目标任务共同引导的多智能体跨层协同控制

国家自然科学基金

2+阅读 · 2011年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

基于多Agent的混杂交互传感器网络的群集扩散同步及优势聚集效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types

Arxiv

0+阅读 · 2023年3月9日

Conceptual Reinforcement Learning for Language-Conditioned Tasks

Arxiv

0+阅读 · 2023年3月9日

An extension theorem for signotopes

Arxiv

0+阅读 · 2023年3月7日

Group conditional validity via multi-group learning

Arxiv

0+阅读 · 2023年3月7日

ENTROPY: Environment Transformer and Offline Policy Optimization

Arxiv

0+阅读 · 2023年3月7日

HAR-Ito models and high-dimensional HAR modeling for high-frequency data

Arxiv

0+阅读 · 2023年3月6日

Streaming Algorithms for Learning with Experts: Deterministic Versus Robust

Arxiv

0+阅读 · 2023年3月3日

Controllable Data Generation by Deep Learning: A Review

Arxiv

15+阅读 · 2022年7月19日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

VIP会员

相关主题

相关VIP内容

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

【CMU博士论文】非结构化环境中的多模态导航学习，177页pdf

专知会员服务

49+阅读 · 2022年12月8日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知会员服务

102+阅读 · 2022年11月2日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知会员服务

113+阅读 · 2022年10月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知会员服务

104+阅读 · 2022年9月19日

【港科大博士论文】高效迁移学习的低资源自然语言理解

【港科大博士论文】高效迁移学习的低资源自然语言理解

专知会员服务

34+阅读 · 2022年8月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

213+阅读 · 2019年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

【CMU博士论文】黑盒和多目标优化策略，151页pdf

【CMU博士论文】黑盒和多目标优化策略，151页pdf

专知

13+阅读 · 2022年11月24日

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

【牛津大学博士论文】深度多智能体强化学习中的协调与沟通，223页pdf

专知

7+阅读 · 2022年11月2日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

【斯坦福博士论文】不确定性时空感知的自动驾驶汽车，136页pdf

专知

9+阅读 · 2022年9月25日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

【斯坦福博士论文】基于压缩模型高效验证的可信机器学习，90页pdf

专知

2+阅读 · 2022年9月16日

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

【斯坦福博士论文】利用离线数据构建多功能强化学习智能体，176页pdf

专知

4+阅读 · 2022年9月14日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

去中心化多智能体导航的基于模型的强化学习 (RL)

去中心化多智能体导航的基于模型的强化学习 (RL)

TensorFlow

13+阅读 · 2021年6月24日

相关基金

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

云计算环境下基于协作的动态资源分配与调度算法研究

国家自然科学基金

7+阅读 · 2013年12月31日

复杂规则实时检测的模型和算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于实物模型的多智能体群避撞与汇聚性的协同控制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于符号表达与多元逼近的智能控制的稳定性分析与控制设计

国家自然科学基金

0+阅读 · 2012年12月31日

基于图的大规模异质信息网络的匹配查询关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

拓扑连通性保持与目标任务共同引导的多智能体跨层协同控制

国家自然科学基金

2+阅读 · 2011年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

基于多Agent的混杂交互传感器网络的群集扩散同步及优势聚集效应研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

相关论文

The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types

Arxiv

0+阅读 · 2023年3月9日

Conceptual Reinforcement Learning for Language-Conditioned Tasks

Arxiv

0+阅读 · 2023年3月9日

An extension theorem for signotopes

Arxiv

0+阅读 · 2023年3月7日

Group conditional validity via multi-group learning

Arxiv

0+阅读 · 2023年3月7日

ENTROPY: Environment Transformer and Offline Policy Optimization

Arxiv

0+阅读 · 2023年3月7日

HAR-Ito models and high-dimensional HAR modeling for high-frequency data

Arxiv

0+阅读 · 2023年3月6日

Streaming Algorithms for Learning with Experts: Deterministic Versus Robust

Arxiv

0+阅读 · 2023年3月3日

Controllable Data Generation by Deep Learning: A Review

Arxiv

15+阅读 · 2022年7月19日

Optimizing Reusable Knowledge for Continual Learning via Metalearning

Arxiv

15+阅读 · 2021年6月9日

Multiagent Soft Q-Learning

Arxiv

11+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员