有限数据下强化学习算法超越人类，清华叉院助理教授解读EfficientZero

2021 年 11 月 18 日 机器之心

强化学习（RL）目前在许多应用中取得了巨大的成功。然而，强化学习的采样效率（sample efficiency）仍然是一个关键的挑战，目前大部分强化学习算法需要巨大的训练数据，例如需要数百万，甚至数十亿次在环境中采样训练。最近，有一些基于图像的 RL 算法在采样效率方面取得了重大进展，然而，如何在强化学习较为通用的基准 Atari（雅达利）游戏上达到人类水平仍然难以实现。

在一篇 NeurIPS 2021 论文中，清华大学交叉信息研究院高阳研究组提出了一种接受图像观测输入的高采样效率算法 EfficientZero，它基于之前 model-based 算法 MuZero。作者在基于图像观测的 model-based 强化学习算法上提出三点改进用于提升算法的采样效率并且保持高性能：时序一致性，预测阶段回报，修正目标价值。

论文链接：https://arxiv.org/abs/2111.00210
项目链接：https://github.com/YeWR/EfficientZero

在这三点改进下，EfficientZero 在 Atari 100k 的基准测试中实现了 190.4% 的平均人类性能和 116.0% 的中值性能，而这个任务只有两小时的真实游戏时间，这是第一次在如此有限数据下强化学习算法能够超越人类水平。此外，EfficientZero 的性能也接近 DQN 在 2 亿帧训练数据下的性能，然而所需要的数据降至约 500 分之一。

除了 Atari 游戏，研究还在机器控制的模拟环境 DMControl 100 基准下进行了部分环境的测试，性能同样是最佳，且与基于状态输入的 SAC 算法接近。实验表明，EfficientZero 的高采样效率和高性能可以更适配现实世界的环境，EfficientZero 或许能够使得强化学习算法在真实环境中有所突破。

11 月 24 日晚 7 点，机器之心 NeurIPS 2021 线上系列分享邀请到该论文作者之一、清华大学交叉信息研究院助理教授高阳为我们解读这项研究。该论文的第一作者为清华大学交叉信息研究院 2020 级博士生叶葳蕤，通讯作者为高阳助理教授。其他作者包括美国加州大学伯克利分校教授 Pieter Abbeel、交叉信息研究院 2020 级硕士生刘绍淮以及加州大学伯克利分校博士生 Thanard Kurutach。

分享主题：Mastering Atrai Games with Limited Data

分享摘要：本工作提出了一种 model-based 算法 EfficientZero，它在 MuZero 这类算法上提出了三点改进，使得强化学习算法能够在有限训练数据下取得较高的性能。同时 EfficientZero 也是第一个在 Atari 100k 基准上取得超过人类平均水平的算法，比 DQN 所需数据减少了 500 倍。

嘉宾简介：高阳，博士毕业于加州大学伯克利分校，现任交叉信息研究院助理教授，其主要研究方向为计算机视觉和强化学习。

分享时间：11 月 24 日 19:00-20:00

直播间：关注机动组视频号，北京时间 11 月 24 日开播。