One of the challenges in online reinforcement learning (RL) is that the agent needs to trade off the exploration of the environment and the exploitation of the samples to optimize its behavior. Whether we optimize for regret, sample complexity, state-space coverage or model estimation, we need to strike a different exploration-exploitation trade-off. In this paper, we propose to tackle the exploration-exploitation problem following a decoupled approach composed of: 1) An "objective-specific" algorithm that (adaptively) prescribes how many samples to collect at which states, as if it has access to a generative model (i.e., a simulator of the environment); 2) An "objective-agnostic" sample collection exploration strategy responsible for generating the prescribed samples as fast as possible. Building on recent methods for exploration in the stochastic shortest path problem, we first provide an algorithm that, given as input the number of samples $b(s,a)$ needed in each state-action pair, requires $\tilde{O}(B D + D^{3/2} S^2 A)$ time steps to collect the $B=\sum_{s,a} b(s,a)$ desired samples, in any unknown communicating MDP with $S$ states, $A$ actions and diameter $D$. Then we show how this general-purpose exploration algorithm can be paired with "objective-specific" strategies that prescribe the sample requirements to tackle a variety of settings -- e.g., model estimation, sparse reward discovery, goal-free cost-free exploration in communicating MDPs -- for which we obtain improved or novel sample complexity guarantees.


翻译:在线强化学习(RL)的挑战之一是,代理商需要权衡环境勘探和样本开发,以优化其行为。无论我们为了遗憾、抽样复杂性、州-空间覆盖范围或模型估计而优化,我们都需要做出不同的勘探-开发权衡。在本文中,我们提议采用一种分解方法来解决勘探-开发问题,该方法包括:1)“目标特定”算法,该算法(可调整)规定在哪些样本中进行采集,以表明其是否具备基因模型(即环境模拟器);2“目标-敏感”样本采集勘探战略,负责尽可能快地生成规定的样本。在最新探索方法的基础上,我们首先提供一种算法,作为样本数量(美元,a)每一州行动模型需要的美元,要求以美元(美元)计算成本(D+D%3/2)成本(S%2 A),用于收集标定的样本的“目标-美元(美元)成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-成本-

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2020年12月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
8+阅读 · 2021年5月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2020年12月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员