This position paper proposes a fresh look at Reinforcement Learning (RL) from the perspective of data-efficiency. Data-efficient RL has gone through three major stages: pure on-line RL where every data-point is considered only once, RL with a replay buffer where additional learning is done on a portion of the experience, and finally transition memory based RL, where, conceptually, all transitions are stored and re-used in every update step. While inferring knowledge from all explicitly stored experience has lead to a tremendous gain in data-efficiency, the question of how this data is collected has been vastly understudied. We argue that data-efficiency can only be achieved through careful consideration of both aspects. We propose to make this insight explicit via a paradigm that we call 'Collect and Infer', which explicitly models RL as two separate but interconnected processes, concerned with data collection and knowledge inference respectively. We discuss implications of the paradigm, how its ideas are reflected in the literature, and how it can guide future research into data efficient RL.


翻译:本立场文件建议从数据效率的角度重新审视加强学习(RL),数据效率RL经历了三个主要阶段:纯在线RL,其中每个数据点只考虑一次;RL,带有一个回放缓冲,其中根据部分经验进行更多的学习;最后,基于过渡记忆的RL,从概念上讲,所有过渡都储存起来,并在每个更新步骤中重新使用。虽然从所有明确储存的经验中推断出知识已导致数据效率的极大提高,但如何收集这些数据的问题却未得到充分研究。我们说,数据效率只有通过认真审议这两个方面才能实现。我们提议,通过我们称之为“聚合和推论”的模式来明确阐述这一洞见,这个模式明确地将RL作为两个分别与数据收集和知识推论有关的独立但相互关联的过程。我们讨论了范例的影响,如何在文献中反映其想法,以及如何指导今后对数据效率的研究。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
109+阅读 · 2021年4月17日
专知会员服务
124+阅读 · 2020年9月8日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
9+阅读 · 2021年3月25日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Arxiv
6+阅读 · 2018年12月10日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
VIP会员
相关VIP内容
【如何做研究】How to research ,22页ppt
专知会员服务
109+阅读 · 2021年4月17日
专知会员服务
124+阅读 · 2020年9月8日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
8+阅读 · 2021年5月21日
Arxiv
9+阅读 · 2021年3月25日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Arxiv
6+阅读 · 2018年12月10日
Deep Reinforcement Learning: An Overview
Arxiv
17+阅读 · 2018年11月26日
Top
微信扫码咨询专知VIP会员