Reinforcement learning (RL) studies how an agent comes to achieve reward in an environment through interactions over time. Recent advances in machine RL have surpassed human expertise at the world's oldest board games and many classic video games, but they require vast quantities of experience to learn successfully -- none of today's algorithms account for the human ability to learn so many different tasks, so quickly. Here we propose a new approach to this challenge based on a particularly strong form of model-based RL which we call Theory-Based Reinforcement Learning, because it uses human-like intuitive theories -- rich, abstract, causal models of physical objects, intentional agents, and their interactions -- to explore and model an environment, and plan effectively to achieve task goals. We instantiate the approach in a video game playing agent called EMPA (the Exploring, Modeling, and Planning Agent), which performs Bayesian inference to learn probabilistic generative models expressed as programs for a game-engine simulator, and runs internal simulations over these models to support efficient object-based, relational exploration and heuristic planning. EMPA closely matches human learning efficiency on a suite of 90 challenging Atari-style video games, learning new games in just minutes of game play and generalizing robustly to new game situations and new levels. The model also captures fine-grained structure in people's exploration trajectories and learning dynamics. Its design and behavior suggest a way forward for building more general human-like AI systems.


翻译:强化学习(RL)研究 代理商如何通过一段时间的相互作用在环境中获得奖励。机器RL的最近进步超过了世界最古老的棋盘游戏和许多经典电玩游戏的人类专长,但是它们需要大量经验才能成功学习 -- -- 今天的算法没有一个算法能说明人类学习如此不同任务的能力,如此快。我们在这里提出了一个应对这一挑战的新办法,它基于一种特别强大的基于模型的RL形式,我们称之为“基于理论的强化学习”,因为它使用人性相似的直观理论 -- -- 物理物体、有意的代理商及其互动的丰富、抽象、因果模型 -- -- 探索和模拟环境,并有效地规划一个环境模型,并规划如何成功地实现任务目标。我们用一个名为EMPA(探索、建模和规划代理)的视频游戏游戏代理商即时速方法,让Bayes在学习以模型模拟模拟器为表现形式的概率性基因分析模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型模型,并对这些模型进行内部模拟,以支持高效的物体、关系型建筑的模型探索和超动性动作规划。 EMPA在新的游戏中,在新的游戏中,在新的游戏结构中,更具有挑战性的游戏中,在新的游戏结构中,在新的游戏结构上,在新的游戏中进行新的游戏节能的游戏中,在新的游戏中,在新的游戏结构上,在新的游戏中,在新的游戏节能上,在新的游戏节能上,在新的游戏里,在新的游戏里,在新的游戏中,在新的游戏里,在新的游戏里学习新的游戏中,在新的游戏节能上进行更上,在新的游戏中,在新的游戏里学习。

0
下载
关闭预览

相关内容

Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
106+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Reinforcement Learning for Quantitative Trading
Arxiv
0+阅读 · 2021年9月28日
Arxiv
0+阅读 · 2021年9月27日
Arxiv
4+阅读 · 2021年4月13日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员