解决作为概率推论的存储式最短Path Markov决定程序 (On Solving a Stochastic Shortest-Path Markov Decision Process as Probabilistic Inference) - 专知论文

会员服务 ·

0

推断 · Processing（编程语言） · 在线 · AI · 无限 ·

2021 年 9 月 13 日

On Solving a Stochastic Shortest-Path Markov Decision Process as Probabilistic Inference

翻译：解决作为概率推论的存储式最短Path Markov决定程序

Mohamed Baioumy,Bruno Lacerda,Paul Duckworth,Nick Hawes

from arxiv, Presented at the second International Workshop on Active Inference (IWAI 2021); 11 pages, 2 figures

Previous work on planning as active inference addresses finite horizon problems and solutions valid for online planning. We propose solving the general Stochastic Shortest-Path Markov Decision Process (SSP MDP) as probabilistic inference. Furthermore, we discuss online and offline methods for planning under uncertainty. In an SSP MDP, the horizon is indefinite and unknown a priori. SSP MDPs generalize finite and infinite horizon MDPs and are widely used in the artificial intelligence community. Additionally, we highlight some of the differences between solving an MDP using dynamic programming approaches widely used in the artificial intelligence community and approaches used in the active inference community.

翻译：作为积极推论,先前的规划工作涉及有限地平线问题和对在线规划有效的解决办法。我们提议作为概率推论解决一般的Stochatic Shortest-Path Markov 决策程序(SSP MDP ) 。此外,我们讨论了在不确定情况下进行规划的在线和离线方法。在SSP MDP 中,这一地平线是无限期的,而且事先是未知的。SSP MDP 概括了有限和无限地平线 MDP,并被人造情报界广泛使用。此外,我们强调在使用人工情报界广泛使用的动态编程方法与积极推论界使用的方法之间,在解决一个多维的 MDP 之间有一些不同之处。

0

相关内容

深度概率图模型，Deep Probabilistic Models

专知会员服务

29+阅读 · 2021年8月2日

【经典书】图模型: 指数族和变分推断，305页pdf

专知会员服务

52+阅读 · 2020年12月10日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

251+阅读 · 2020年5月18日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

经典书《机器学习：概率视角》（Machine Learning: a Probabilistic Perspective）第二版Python代码，附1098页pdf下载

经典书《机器学习：概率视角》（Machine Learning: a Probabilistic Perspective）第二版Python代码，附1098页pdf下载

专知会员服务

277+阅读 · 2019年10月25日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

开源书：PyTorch深度学习起步

开源书：PyTorch深度学习起步

专知会员服务

51+阅读 · 2019年10月11日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Probing to Minimize

Arxiv

0+阅读 · 2021年11月3日

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees

Arxiv

0+阅读 · 2021年11月2日

Likelihood-Free Inference in State-Space Models with Unknown Dynamics

Arxiv

0+阅读 · 2021年11月2日

Program Synthesis Guided Reinforcement Learning for Partially Observed Environments

Arxiv

0+阅读 · 2021年11月1日

Optimizing Secure Decision Tree Inference Outsourcing

Arxiv

0+阅读 · 2021年10月31日

Understanding the Effect of Stochasticity in Policy Optimization

Arxiv

0+阅读 · 2021年10月29日

Privacy Preserving Inference on the Ratio of Two Gaussians Using (Weighted) Sums

Arxiv

0+阅读 · 2021年10月28日

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

Arxiv

8+阅读 · 2021年4月22日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Inference in Probabilistic Graphical Models by Graph Neural Networks

Arxiv

3+阅读 · 2018年5月25日

VIP会员

文章信息

相关主题

Processing（编程语言）

相关VIP内容

深度概率图模型，Deep Probabilistic Models

专知会员服务

29+阅读 · 2021年8月2日

【经典书】图模型: 指数族和变分推断，305页pdf

专知会员服务

52+阅读 · 2020年12月10日

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

【经典书】贝叶斯编程，378页pdf，Bayesian Programming

专知会员服务

251+阅读 · 2020年5月18日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

经典书《机器学习：概率视角》（Machine Learning: a Probabilistic Perspective）第二版Python代码，附1098页pdf下载

经典书《机器学习：概率视角》（Machine Learning: a Probabilistic Perspective）第二版Python代码，附1098页pdf下载

专知会员服务

277+阅读 · 2019年10月25日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

开源书：PyTorch深度学习起步

开源书：PyTorch深度学习起步

专知会员服务

51+阅读 · 2019年10月11日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

282+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

【论文推荐】最新六篇主题模型相关论文—领域特定知识库、神经变分推断、动态和静态主题模型

专知

19+阅读 · 2018年6月26日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Probing to Minimize

Arxiv

0+阅读 · 2021年11月3日

Bayes-Newton Methods for Approximate Bayesian Inference with PSD Guarantees

Arxiv

0+阅读 · 2021年11月2日

Likelihood-Free Inference in State-Space Models with Unknown Dynamics

Arxiv

0+阅读 · 2021年11月2日

Program Synthesis Guided Reinforcement Learning for Partially Observed Environments

Arxiv

0+阅读 · 2021年11月1日

Optimizing Secure Decision Tree Inference Outsourcing

Arxiv

0+阅读 · 2021年10月31日

Understanding the Effect of Stochasticity in Policy Optimization

Arxiv

0+阅读 · 2021年10月29日

Privacy Preserving Inference on the Ratio of Two Gaussians Using (Weighted) Sums

Arxiv

0+阅读 · 2021年10月28日

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret

Arxiv

8+阅读 · 2021年4月22日

Learning Heuristics over Large Graphs via Deep Reinforcement Learning

Arxiv

12+阅读 · 2019年3月8日

Inference in Probabilistic Graphical Models by Graph Neural Networks

Arxiv

3+阅读 · 2018年5月25日

微信扫码咨询专知VIP会员