蒙特卡洛信息导向规划 (Monte Carlo Information-Oriented Planning) - 专知论文

会员服务 ·

0

蒙特卡罗 · Extensibility · 部分可观测马尔可夫决策过程 · 蒙特卡洛树搜索 · AIM ·

2021 年 3 月 21 日

Monte Carlo Information-Oriented Planning

翻译：蒙特卡洛信息导向规划

Vincent Thomas,Gérémy Hutin,Olivier Buffet

from arxiv, 9 pages, revised version of ECAI 2020 paper

In this article, we discuss how to solve information-gathering problems expressed as rho-POMDPs, an extension of Partially Observable Markov Decision Processes (POMDPs) whose reward rho depends on the belief state. Point-based approaches used for solving POMDPs have been extended to solving rho-POMDPs as belief MDPs when its reward rho is convex in B or when it is Lipschitz-continuous. In the present paper, we build on the POMCP algorithm to propose a Monte Carlo Tree Search for rho-POMDPs, aiming for an efficient on-line planner which can be used for any rho function. Adaptations are required due to the belief-dependent rewards to (i) propagate more than one state at a time, and (ii) prevent biases in value estimates. An asymptotic convergence proof to epsilon-optimal values is given when rho is continuous. Experiments are conducted to analyze the algorithms at hand and show that they outperform myopic approaches.

翻译：在本篇文章中,我们讨论了如何解决以rho-POMDPs(部分可观察的Markov决定程序(部分可观察的Markov决定程序)的延伸,其奖赏取决于信仰状态。解决POMDPs(POMDPs)的点基方法已经推广到解决rho-POMDPs(信仰MDPs),当其奖赏在B中是混凝土或Lipschitz持续时,作为信仰MDPs(信仰MDPs)的根基方法。在本文件中,我们利用POMCP算法,提议对rho-POMDPs进行蒙特卡洛树搜索(蒙特卡洛树搜索),目的是建立一个有效的在线规划器,用于任何rho功能。由于依赖信仰的奖励:(一) 一次宣传不止一个州,以及(二) 防止价值估计中的偏差,因此需要适应。当Rho持续时,提供普西龙-optimal价值的微缩证据。我们进行了实验,以分析手算法并显示它们超越了近视方法。

0

相关内容

蒙特卡罗

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【Manning新书】现代Java实战，592页pdf

【Manning新书】现代Java实战，592页pdf

专知会员服务

101+阅读 · 2020年5月22日

【AAAI 2019 Tutorial】城市交通控制的规划与调度方法（Planning and Scheduling Approaches for Urban Traffic Control），Scott Sanner，Mauro Vallati，Stephen F. Smith

【AAAI 2019 Tutorial】城市交通控制的规划与调度方法（Planning and Scheduling Approaches for Urban Traffic Control），Scott Sanner，Mauro Vallati，Stephen F. Smith

专知会员服务

8+阅读 · 2019年11月18日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

人工智能 | 国际会议信息10条

人工智能 | 国际会议信息10条

Call4Papers

5+阅读 · 2018年12月18日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

Solving Footstep Planning as a Feasibility Problem using L1-norm Minimization (Extended Version)

Arxiv

0+阅读 · 2021年5月16日

Resource Planning for Hospitals Under Special Consideration of the COVID-19 Pandemic: Optimization and Sensitivity Analysis

Arxiv

0+阅读 · 2021年5月16日

Model-Based Offline Planning with Trajectory Pruning

Arxiv

0+阅读 · 2021年5月16日

Offline Time-Independent Multi-Agent Path Planning

Arxiv

0+阅读 · 2021年5月15日

Control of mental representations in human planning

Control of mental representations in human planning

Arxiv

0+阅读 · 2021年5月14日

Uncertainty-aware Safe Exploratory Planning using Gaussian Process and Neural Control Contraction Metric

Arxiv

0+阅读 · 2021年5月13日

Learning and Planning in Complex Action Spaces

Arxiv

4+阅读 · 2021年4月13日

Path Planning using Neural A* Search

Arxiv

5+阅读 · 2021年2月8日

Retro*: Learning Retrosynthetic Planning with Neural Guided A* Search

Arxiv

9+阅读 · 2020年6月29日

Conditional Channel Gated Networks for Task-Aware Continual Learning

Arxiv

5+阅读 · 2020年3月31日

VIP会员

文章信息

相关主题

部分可观测马尔可夫决策过程

蒙特卡洛树搜索

相关VIP内容

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

INRIA最新「机器学习理论」新书，229页pdf原理性阐述机器学习

专知会员服务

69+阅读 · 2021年3月27日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

【Manning新书】现代Java实战，592页pdf

【Manning新书】现代Java实战，592页pdf

专知会员服务

101+阅读 · 2020年5月22日

【AAAI 2019 Tutorial】城市交通控制的规划与调度方法（Planning and Scheduling Approaches for Urban Traffic Control），Scott Sanner，Mauro Vallati，Stephen F. Smith

【AAAI 2019 Tutorial】城市交通控制的规划与调度方法（Planning and Scheduling Approaches for Urban Traffic Control），Scott Sanner，Mauro Vallati，Stephen F. Smith

专知会员服务

8+阅读 · 2019年11月18日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

人工智能 | 国际会议信息10条

人工智能 | 国际会议信息10条

Call4Papers

5+阅读 · 2018年12月18日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

相关论文

Solving Footstep Planning as a Feasibility Problem using L1-norm Minimization (Extended Version)

Arxiv

0+阅读 · 2021年5月16日

Resource Planning for Hospitals Under Special Consideration of the COVID-19 Pandemic: Optimization and Sensitivity Analysis

Arxiv

0+阅读 · 2021年5月16日

Model-Based Offline Planning with Trajectory Pruning

Arxiv

0+阅读 · 2021年5月16日

Offline Time-Independent Multi-Agent Path Planning

Arxiv

0+阅读 · 2021年5月15日

Control of mental representations in human planning

Control of mental representations in human planning

Arxiv

0+阅读 · 2021年5月14日

Uncertainty-aware Safe Exploratory Planning using Gaussian Process and Neural Control Contraction Metric

Arxiv

0+阅读 · 2021年5月13日

Learning and Planning in Complex Action Spaces

Arxiv

4+阅读 · 2021年4月13日

Path Planning using Neural A* Search

Arxiv

5+阅读 · 2021年2月8日

Retro*: Learning Retrosynthetic Planning with Neural Guided A* Search

Arxiv

9+阅读 · 2020年6月29日

Conditional Channel Gated Networks for Task-Aware Continual Learning

Arxiv

5+阅读 · 2020年3月31日

微信扫码咨询专知VIP会员