This work studies the question of Representation Learning in RL: how can we learn a compact low-dimensional representation such that on top of the representation we can perform RL procedures such as exploration and exploitation, in a sample efficient manner. We focus on the low-rank Markov Decision Processes (MDPs) where the transition dynamics correspond to a low-rank transition matrix. Unlike prior works that assume the representation is known (e.g., linear MDPs), here we need to learn the representation for the low-rank MDP. We study both the online RL and offline RL settings. For the online setting, operating with the same computational oracles used in FLAMBE (Agarwal et.al), the state-of-art algorithm for learning representations in low-rank MDPs, we propose an algorithm REP-UCB Upper Confidence Bound driven Representation learning for RL), which significantly improves the sample complexity from $\widetilde{O}( A^9 d^7 / (\epsilon^{10} (1-\gamma)^{22}))$ for FLAMBE to $\widetilde{O}( A^4 d^4 / (\epsilon^2 (1-\gamma)^{3}) )$ with $d$ being the rank of the transition matrix (or dimension of the ground truth representation), $A$ being the number of actions, and $\gamma$ being the discounted factor. Notably, REP-UCB is simpler than FLAMBE, as it directly balances the interplay between representation learning, exploration, and exploitation, while FLAMBE is an explore-then-commit style approach and has to perform reward-free exploration step-by-step forward in time. For the offline RL setting, we develop an algorithm that leverages pessimism to learn under a partial coverage condition: our algorithm is able to compete against any policy as long as it is covered by the offline distribution.


翻译:这项工作研究RL的“ 代表学习” 问题: 我们怎样才能学习一个低层次的“ 代表” 问题 : 我们怎样才能学习一个低层次的“ 代表” 问题, 这样在代表之外, 我们还可以以抽样效率的方式执行“ 代表” 程序。 我们注重的是低层次的 Markov 决策程序(MDPs), 其过渡动态与低层次的过渡矩阵相对应。 与先前假定代表的工程不同( 例如线性 MDPs), 我们需要学习低层次的 MDP 的“ 代表 ” 。 我们研究在线的 RL 和 离线的 RLL 设置。 对于在线的设置, 与FAMB( 等等) 的“ 计算” 程序一样, 以相同的计算方式操作“ 探讨”, 我们的“ 数字” 的“ 高级信任” 代表 学习“ ”, 这里我们需要大大改进“ 全层次 ” 的“ ” ( A_ 7/ ( eblon 10 ) ) 的“ 和“ 任何“ 平级” 平级的“ 平级的“ 平级 平级” 的“ 。 ( ) ) 的“ 平级的“ 平级”, 平级的“, 之间的,,,,,,, 平级的“ 平级” 是“ 是,, 平级的“ 平级” 是, 的“ 平级的“, 平级” 是“,,,,,,, 平级” 是 平级的“,,,,, 平级” 是 的“ 平级” 是 的“,,,,,,,,,是“, 平级” 是,是 的“,是 平级”,是 平级”,是,是,是,是,是 的“,是 平级”,是,是“ 平级 平级,是,是,是 平级

0
下载
关闭预览

相关内容

专知会员服务
16+阅读 · 2020年12月4日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
3+阅读 · 2018年10月5日
Arxiv
8+阅读 · 2014年6月27日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员