强化学习(RL)是一种框架,代理通过与环境交互获取数据驱动的反馈,利用奖惩机制学习如何做出决策。深度强化学习(Deep RL)将深度学习与强化学习相结合,利用深度神经网络的强大功能来处理复杂的高维数据。在深度RL框架下,我们的机器学习研究社区在使机器能够在长时间范围内做出连续决策方面取得了巨大的进展。这些进展包括在Atari游戏中达到超越人类的表现[Mnih等,2015],掌握围棋并击败世界冠军[Silver等,2017],提供强大的推荐系统[Gomez-Uribe和Hunt,2015,Singh等,2021]。本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有方法,以提高代理的性能、样本效率以及学习到的策略的泛化能力。

论文的第一部分 我们关注单智能体RL环境中的探索问题,在这种环境中,代理必须与复杂环境交互以达成目标。如果一个代理无法充分探索其环境,它不太可能达到高性能,因为它会错过关键的奖励,从而无法学习到最优行为。一个关键挑战是稀疏奖励环境,在这种环境中,代理只有在任务完成后才会收到反馈,使得探索更加困难。我们提出了一种新的方法,能够实现语义探索,从而在稀疏奖励任务中提高样本效率和性能。

论文的第二部分 我们聚焦于合作的多智能体强化学习(MARL),这是对传统RL设定的扩展,考虑了多个代理在同一环境中为完成共享任务而进行的交互。在需要多个代理高度协调且对失误有严格惩罚的多智能体任务中,当前的最先进MARL方法往往无法学会有用的行为,因为代理容易陷入次优均衡。另一个挑战是所有代理的联合动作空间的探索,其规模随着代理数量呈指数级增长。为了解决这些挑战,我们提出了创新的方法,如通用价值探索和可扩展的基于角色的学习。这些方法促进了代理之间的更好协调、更快的探索,并增强了代理适应新环境和新任务的能力,展示了零样本泛化能力,并提高了样本效率。最后,我们研究了合作型MARL中的独立策略方法,在该方法中,每个代理将其他代理视为环境的一部分。我们展示了这种方法在流行的多智能体基准测试中表现优于最先进的联合学习方法。总之,本论文的贡献显著改善了深度(多智能体)强化学习的现状。论文中开发的代理能够高效地探索其环境,提高样本效率,学习需要显著多智能体协调的任务,并实现跨不同任务的零样本泛化。

成为VIP会员查看完整内容
42

相关内容

牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。

论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员