利用使用实际系统应用的蒙特卡洛逐步估算模型政策搜索 (Model-Based Policy Search Using Monte Carlo Gradient Estimation with Real Systems Application) - 专知论文

会员服务 ·

0

估计/估计量 · 蒙特卡罗 · 策略搜索 · Performer · MoDELS ·

2021 年 1 月 28 日

Model-Based Policy Search Using Monte Carlo Gradient Estimation with Real Systems Application

翻译：利用使用实际系统应用的蒙特卡洛逐步估算模型政策搜索

Fabio Amadio,Alberto Dalla Libera,Riccardo Antonello,Daniel Nikovski,Ruggero Carli,Diego Romeres

from arxiv, Submitted to IEEE Transactions on Robotics

In this paper, we present a Model-Based Reinforcement Learning algorithm named Monte Carlo Probabilistic Inference for Learning COntrol (MC-PILCO). The algorithm relies on Gaussian Processes (GPs) to model the system dynamics and on a Monte Carlo approach to estimate the policy gradient. This defines a framework in which we ablate the choice of the following components: (i) the selection of the cost function, (ii) the optimization of policies using dropout, (iii) an improved data efficiency through the use of structured kernels in the GP models. The combination of the aforementioned aspects affects dramatically the performance of MC-PILCO. Numerical comparisons in a simulated cart-pole environment show that MC-PILCO exhibits better data-efficiency and control performance w.r.t. state-of-the-art GP-based MBRL algorithms. Finally, we apply MC-PILCO to real systems, considering in particular systems with partially measurable states. We discuss the importance of modeling both the measurement system and the state estimators during policy optimization. The effectiveness of the proposed solutions has been tested in simulation and in two real systems, a Furuta pendulum and a ball-and-plate.

翻译：在本文中,我们提出一个称为Monte Carlo Control(MC-PILCO)的基于模型的加强学习能力分析算法(MC-PILCO),该算法依靠Gossian processes(GPs)来模拟系统动态,依靠Monte Carlo方法来估计政策梯度。这个算法界定了一个框架,在这个框架内,我们减少以下组成部分的选择:(一) 选择成本功能,(二) 优化使用辍学法的政策,(三) 通过在GP模型中使用结构化核心提高数据效率。上述各方面的结合极大地影响了MC-PILCO的性能。模拟马车极环境中的数值比较表明,MC-PILCO的数据效率和控制性能得到更好的体现。最后,我们将MC-PILCO应用到实际系统,特别考虑到有部分可计量状态的系统。我们讨论了在政策优化期间对测量系统和州估测数据系统进行建模的重要性。提议的解决办法的有效性在实际压和制压中进行了两次测试。

0

相关内容

估计/估计量

估计/估计量

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning

Arxiv

0+阅读 · 2021年3月24日

Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation

Arxiv

0+阅读 · 2021年3月24日

Fast and Accurate Estimation of Non-Nested Binomial Hierarchical Models Using Variational Inference

Arxiv

0+阅读 · 2021年3月24日

Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics

Arxiv

0+阅读 · 2021年3月23日

Multi-Agent Active Search using Realistic Depth-Aware Noise Model

Arxiv

0+阅读 · 2021年3月22日

D3PI: Data-Driven Distributed Policy Iteration for Homogeneous Interconnected Systems

Arxiv

0+阅读 · 2021年3月22日

A Survey on Estimation Schemes in Molecular Communications

Arxiv

0+阅读 · 2021年3月22日

Maximum Likelihood Estimation of Stochastic Frontier Models with Endogeneity

Arxiv

0+阅读 · 2021年3月21日

Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse Reward Learning with Iterative Reasoning and Cumulative Prospect Theory

Arxiv

0+阅读 · 2021年3月21日

Deepening Lee-Carter for longevity projections with uncertainty estimation

Arxiv

0+阅读 · 2021年3月18日

VIP会员

文章信息

相关主题

估计/估计量

相关VIP内容

【干货书】机器学习速查手册，135页pdf

【干货书】机器学习速查手册，135页pdf

专知会员服务

127+阅读 · 2020年11月20日

不可错过！UIUC最新《统计强化学习》课程！

专知会员服务

54+阅读 · 2020年9月7日

最新《深度持续学习》综述论文，32页pdf

最新《深度持续学习》综述论文，32页pdf

专知会员服务

88+阅读 · 2020年9月6日

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

【开放书】部分观测动态系统的贝叶斯学习，119页pdf，Bayesian Learning for partially observed dynamical systems

专知会员服务

41+阅读 · 2019年12月27日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

【变分推断课件】Lectures on Variational Inference：Statistical Analysis of Variational Approximations（附带pdf）

专知会员服务

16+阅读 · 2019年11月30日

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

【变分推断课件】Lectures on Variational Inference： Approximate Bayesian Inference in Machine Learning（附带pdf）

专知会员服务

35+阅读 · 2019年11月30日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

数据要素发展报告(2025年)：附下载

人工智能代理提升战时舰船战备水平

【NeurIPS2025教程】大语言模型规划

NeurIPS 2025 教程：深度学习训练不稳定性的理论洞见

相关资讯

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

LibRec 精选：AutoML for Contextual Bandits

LibRec 精选：AutoML for Contextual Bandits

LibRec智能推荐

7+阅读 · 2019年9月19日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

【推荐】用Python/OpenCV实现增强现实

【推荐】用Python/OpenCV实现增强现实

机器学习研究会

15+阅读 · 2017年11月16日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement Learning

Arxiv

0+阅读 · 2021年3月24日

Cautiously Optimistic Policy Optimization and Exploration with Linear Function Approximation

Arxiv

0+阅读 · 2021年3月24日

Fast and Accurate Estimation of Non-Nested Binomial Hierarchical Models Using Variational Inference

Arxiv

0+阅读 · 2021年3月24日

Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics

Arxiv

0+阅读 · 2021年3月23日

Multi-Agent Active Search using Realistic Depth-Aware Noise Model

Arxiv

0+阅读 · 2021年3月22日

D3PI: Data-Driven Distributed Policy Iteration for Homogeneous Interconnected Systems

Arxiv

0+阅读 · 2021年3月22日

A Survey on Estimation Schemes in Molecular Communications

Arxiv

0+阅读 · 2021年3月22日

Maximum Likelihood Estimation of Stochastic Frontier Models with Endogeneity

Arxiv

0+阅读 · 2021年3月21日

Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse Reward Learning with Iterative Reasoning and Cumulative Prospect Theory

Arxiv

0+阅读 · 2021年3月21日

Deepening Lee-Carter for longevity projections with uncertainty estimation

Arxiv

0+阅读 · 2021年3月18日

微信扫码咨询专知VIP会员