有限数据下强化学习算法超越人类,清华叉院助理教授解读EfficientZero

2021 年 11 月 18 日 机器之心


强化学习(RL)目前在许多应用中取得了巨大的成功。然而,强化学习的采样效率(sample efficiency)仍然是一个关键的挑战,目前大部分强化学习算法需要巨大的训练数据,例如需要数百万,甚至数十亿次在环境中采样训练。最近,有一些基于图像的 RL 算法在采样效率方面取得了重大进展,然而,如何在强化学习较为通用的基准 Atari(雅达利)游戏上达到人类水平仍然难以实现。


在一篇 NeurIPS 2021 论文中,清华大学交叉信息研究院高阳研究组提出了一种接受图像观测输入的高采样效率算法 EfficientZero,它基于之前 model-based 算法 MuZero。作者在基于图像观测的 model-based 强化学习算法上提出三点改进用于提升算法的采样效率并且保持高性能:时序一致性,预测阶段回报,修正目标价值。



  • 论文链接:https://arxiv.org/abs/2111.00210 

  • 项目链接:https://github.com/YeWR/EfficientZero


在这三点改进下,EfficientZero 在 Atari 100k 的基准测试中实现了 190.4% 的平均人类性能和 116.0% 的中值性能,而这个任务只有两小时的真实游戏时间,这是第一次在如此有限数据下强化学习算法能够超越人类水平。此外,EfficientZero 的性能也接近 DQN 在 2 亿帧训练数据下的性能,然而所需要的数据降至约 500 分之一。


除了 Atari 游戏,研究还在机器控制的模拟环境 DMControl 100 基准下进行了部分环境的测试,性能同样是最佳,且与基于状态输入的 SAC 算法接近。实验表明,EfficientZero 的高采样效率和高性能可以更适配现实世界的环境,EfficientZero 或许能够使得强化学习算法在真实环境中有所突破。


11 月 24 日晚 7 点,机器之心 NeurIPS 2021 线上系列分享邀请到该论文作者之一、清华大学交叉信息研究院助理教授高阳为我们解读这项研究。该论文的第一作者为清华大学交叉信息研究院 2020 级博士生叶葳蕤,通讯作者为高阳助理教授。其他作者包括美国加州大学伯克利分校教授 Pieter Abbeel、交叉信息研究院 2020 级硕士生刘绍淮以及加州大学伯克利分校博士生 Thanard Kurutach。



分享主题:Mastering Atrai Games with Limited Data


分享摘要:本工作提出了一种 model-based 算法 EfficientZero,它在 MuZero 这类算法上提出了三点改进,使得强化学习算法能够在有限训练数据下取得较高的性能。同时 EfficientZero 也是第一个在 Atari 100k 基准上取得超过人类平均水平的算法,比 DQN 所需数据减少了 500 倍。


嘉宾简介:高阳,博士毕业于加州大学伯克利分校,现任交叉信息研究院助理教授,其主要研究方向为计算机视觉和强化学习。


分享时间:11 月 24 日 19:00-20:00


直播间:关注机动组视频号,北京时间 11 月 24 日开播。

交流群 本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「强化学习」即可加入。



机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告

登录查看更多
0

相关内容

【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
38+阅读 · 2020年12月1日
专知会员服务
23+阅读 · 2020年9月15日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
机器学习算法与Python学习
10+阅读 · 2019年9月14日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Challenges for Open-domain Targeted Sentiment Analysis
Arxiv
35+阅读 · 2022年3月14日
Arxiv
30+阅读 · 2021年7月7日
已删除
Arxiv
32+阅读 · 2020年3月23日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Top
微信扫码咨询专知VIP会员