Monte Carlo planners can often return sub-optimal actions, even if they are guaranteed to converge in the limit of infinite samples. Known asymptotic regret bounds do not provide any way to measure confidence of a recommended action at the conclusion of search. In this work, we prove bounds on the sub-optimality of Monte Carlo estimates for non-stationary bandits and Markov decision processes. These bounds can be directly computed at the conclusion of the search and do not require knowledge of the true action-value. The presented bound holds for general Monte Carlo solvers meeting mild convergence conditions. We empirically test the tightness of the bounds through experiments on a multi-armed bandit and a discrete Markov decision process for both a simple solver and Monte Carlo tree search.


翻译:蒙特卡洛规划者往往可以返回亚最佳行动,即使它们保证在无限样本的限度内汇合。已知的无症状的遗憾界限在搜索结束时无法提供任何方法来衡量对推荐行动的信心。在这项工作中,我们证明蒙特卡洛对非静态强盗和Markov决策程序的亚最佳估计值的界限。这些界限可以在搜索结束时直接计算,而不需要了解真正的行动价值。 提交的界限被锁定给符合温和趋同条件的蒙特卡洛普通解决者。我们通过多臂强盗和离散的Markov决定程序的实验,对一个简单的解决者和蒙特卡洛树的搜索进行实验,对界限的紧密性进行了实验。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年4月2日
专知会员服务
26+阅读 · 2021年4月2日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
54+阅读 · 2020年11月3日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
六边形架构 Java 实现
ImportNew
4+阅读 · 2019年3月31日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年1月5日
Arxiv
0+阅读 · 2022年1月4日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2018年1月31日
Arxiv
4+阅读 · 2018年1月15日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
六边形架构 Java 实现
ImportNew
4+阅读 · 2019年3月31日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2022年1月5日
Arxiv
0+阅读 · 2022年1月4日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
3+阅读 · 2018年1月31日
Arxiv
4+阅读 · 2018年1月15日
Top
微信扫码咨询专知VIP会员