通过REPS实现接近最佳政策优化 (Near Optimal Policy Optimization via REPS) - 专知论文

会员服务 ·

0

优化器 · 学成 · 相对熵 · 策略搜索 · Performer ·

2021 年 3 月 17 日

Near Optimal Policy Optimization via REPS

翻译：通过REPS实现接近最佳政策优化

Aldo Pacchiano,Jonathan Lee,Peter Bartlett,Ofir Nachum

from arxiv, 8 main pages, 37 total pages

Since its introduction a decade ago, \emph{relative entropy policy search} (REPS) has demonstrated successful policy learning on a number of simulated and real-world robotic domains, not to mention providing algorithmic components used by many recently proposed reinforcement learning (RL) algorithms. While REPS is commonly known in the community, there exist no guarantees on its performance when using stochastic and gradient-based solvers. In this paper we aim to fill this gap by providing guarantees and convergence rates for the sub-optimality of a policy learned using first-order optimization methods applied to the REPS objective. We first consider the setting in which we are given access to exact gradients and demonstrate how near-optimality of the objective translates to near-optimality of the policy. We then consider the practical setting of stochastic gradients, and introduce a technique that uses \emph{generative} access to the underlying Markov decision process to compute parameter updates that maintain favorable convergence to the optimal regularized policy.

翻译：自十年前引入以来, \ emph{ relative entropy policy search} (REPS) 在许多模拟和真实世界机器人域上展示了成功的政策学习, 更不用说提供最近许多拟议强化学习(RL)算法所使用的算法的算法组成部分了。虽然REPS在社区中广为人知, 但是在使用随机和梯度求解器时对其性能没有保障。在本文件中, 我们的目标是填补这一差距, 为利用对REPS 目标应用的第一阶优化方法所学的政策的亚最佳性提供保障和趋同率。我们首先考虑我们获得精确梯度的设置, 并展示目标近于最优化的程度如何将政策转化为接近最优化。我们然后考虑对随机梯度的实用设置, 并引入一种技术, 使用 emph{ generatr} 来对基本的Markov 决策程序进行配置参数更新, 以保持对最佳常规政策有利的趋同。

0

相关内容

优化器

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

126+阅读 · 2020年8月2日

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

专知会员服务

41+阅读 · 2020年7月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

250+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Direct and indirect reinforcement learning

Arxiv

1+阅读 · 2021年5月11日

Adaptive Policy Transfer in Reinforcement Learning

Arxiv

1+阅读 · 2021年5月10日

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model

Arxiv

0+阅读 · 2021年5月8日

Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation

Arxiv

0+阅读 · 2021年5月8日

A Near-Optimal Algorithm for Stochastic Bilevel Optimization via Double-Momentum

Arxiv

0+阅读 · 2021年5月8日

Optimizing Variational Representations of Divergences and Accelerating their Statistical Estimation

Arxiv

0+阅读 · 2021年5月5日

Deep Reinforcement Learning for Adaptive Exploration of Unknown Environments

Arxiv

0+阅读 · 2021年5月4日

On the Linear convergence of Natural Policy Gradient Algorithm

Arxiv

0+阅读 · 2021年5月4日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

VIP会员

文章信息

相关主题

相关VIP内容

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

一份简单《图神经网络》教程，28页ppt

一份简单《图神经网络》教程，28页ppt

专知会员服务

126+阅读 · 2020年8月2日

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

【伯克利-Ke Li】学习优化，74页ppt，Learning to Optimize

专知会员服务

41+阅读 · 2020年7月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

250+阅读 · 2020年4月19日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能绝不能完全自主》

《人工智能的法律与伦理：军事自主机器独特挑战的深度剖析》316页

从数据到主导：AI与兵棋推演构筑决策优势

《特洛伊木马货柜：武器化集装箱的战略威胁》最新报告

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

计算机视觉近一年进展综述

计算机视觉近一年进展综述

机器学习研究会

9+阅读 · 2017年11月25日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Direct and indirect reinforcement learning

Arxiv

1+阅读 · 2021年5月11日

Adaptive Policy Transfer in Reinforcement Learning

Arxiv

1+阅读 · 2021年5月10日

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model

Arxiv

0+阅读 · 2021年5月8日

Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation

Arxiv

0+阅读 · 2021年5月8日

A Near-Optimal Algorithm for Stochastic Bilevel Optimization via Double-Momentum

Arxiv

0+阅读 · 2021年5月8日

Optimizing Variational Representations of Divergences and Accelerating their Statistical Estimation

Arxiv

0+阅读 · 2021年5月5日

Deep Reinforcement Learning for Adaptive Exploration of Unknown Environments

Arxiv

0+阅读 · 2021年5月4日

On the Linear convergence of Natural Policy Gradient Algorithm

Arxiv

0+阅读 · 2021年5月4日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

微信扫码咨询专知VIP会员