This paper studies regret minimization with randomized value functions in reinforcement learning. In tabular finite-horizon Markov Decision Processes, we introduce a clipping variant of one classical Thompson Sampling (TS)-like algorithm, randomized least-squares value iteration (RLSVI). We analyze the algorithm using a novel intertwined regret decomposition. Our $\tilde{\mathrm{O}}(H^2S\sqrt{AT})$ high-probability worst-case regret bound improves the previous sharpest worst-case regret bounds for RLSVI and matches the existing state-of-the-art worst-case TS-based regret bounds.


翻译:本文的论文研究对在强化学习中以随机值函数来最小化感到遗憾。 在表格中, 限值 Markov 决策程序, 我们引入了一种类似 Thompson 经典的随机最小方位值迭代算法( RLSVI ) 的剪切变式。 我们使用新颖的相互交织的遗憾分解法来分析算法 。 我们的 $\ tilde\ mathrm{O}( H2S\ sqrt{AT}) $( ) 高概率最坏的负数分解框改进了 RLSVI 以前的最难处理的最难处理的后处理框, 并符合现有最先进的基于 TS 最坏案例的后处理框 。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
最新《高级算法》Advanced Algorithms,176页pdf
专知会员服务
92+阅读 · 2020年10月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
74+阅读 · 2020年5月5日
专知会员服务
162+阅读 · 2020年1月16日
MIT新书《强化学习与最优控制》
专知会员服务
278+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
已删除
将门创投
4+阅读 · 2018年11月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2020年12月7日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
最新《高级算法》Advanced Algorithms,176页pdf
专知会员服务
92+阅读 · 2020年10月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
74+阅读 · 2020年5月5日
专知会员服务
162+阅读 · 2020年1月16日
MIT新书《强化学习与最优控制》
专知会员服务
278+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
已删除
将门创投
4+阅读 · 2018年11月6日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员