Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 194.3% mean human performance and 109.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/YeWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.


翻译:在许多应用领域,强化学习取得了巨大成功。然而,抽样效率仍然是一个关键的挑战,在Atari 100k基准上,只有两小时的实时游戏经验,在DMCOR 100k基准的某些任务中比SAC高超。这是首次在Atari游戏基准上实现超人性能。这是在Atari游戏基准上取得一致的人类性能,但仍然是一个难以实现的目标。我们提议在MuZero上建立高效Zero的基于模型性能的视觉性能RL算法,我们称之为“节能Zero”。我们的方法达到了194.3 % 中等人类性能,在Atari 100k基准上达到109.0%的中位性能,只有两个小时的实时游戏经验,在DMControl100k基准的某些任务中超过了SAC。这是首次在Atari游戏上以如此微小的数据实现超人性性能。高效Zero的性能也接近DQN的2亿个框架,而我们却消耗了500倍的数据。高效Zero的样本复杂性和高性能能能使RL更接近于现实应用性能。我们以简单的方式执行我们的算法,我们以易于理解的方式执行了Squs/RWIW/HIxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx。

0
下载
关闭预览

相关内容

专知会员服务
23+阅读 · 2020年9月15日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Arxiv
0+阅读 · 2022年2月12日
Arxiv
12+阅读 · 2019年3月14日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
5+阅读 · 2018年9月11日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2020年9月15日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Top
微信扫码咨询专知VIP会员