在正规化政策迭接方面改进了遗憾状况和经验重现 (Improved Regret Bound and Experience Replay in Regularized Policy Iteration) - 专知论文

会员服务 ·

0

经验回放 · 策略迭代 · 正则化项 · 近似 · 泛函 ·

2021 年 2 月 25 日

Improved Regret Bound and Experience Replay in Regularized Policy Iteration

翻译：在正规化政策迭接方面改进了遗憾状况和经验重现

Nevena Lazic,Dong Yin,Yasin Abbasi-Yadkori,Csaba Szepesvari

In this work, we study algorithms for learning in infinite-horizon undiscounted Markov decision processes (MDPs) with function approximation. We first show that the regret analysis of the Politex algorithm (a version of regularized policy iteration) can be sharpened from $O(T^{3/4})$ to $O(\sqrt{T})$ under nearly identical assumptions, and instantiate the bound with linear function approximation. Our result provides the first high-probability $O(\sqrt{T})$ regret bound for a computationally efficient algorithm in this setting. The exact implementation of Politex with neural network function approximation is inefficient in terms of memory and computation. Since our analysis suggests that we need to approximate the average of the action-value functions of past policies well, we propose a simple efficient implementation where we train a single Q-function on a replay buffer with past data. We show that this often leads to superior performance over other implementation choices, especially in terms of wall-clock time. Our work also provides a novel theoretical justification for using experience replay within policy iteration algorithms.

翻译：在这项工作中,我们用功能近似值来研究无限偏差的Markov 决策程序(MDPs)的学习算法。我们首先显示,对Politex 算法(常规化政策迭代的版本)的遗憾分析(Politex 算法)可以在几乎相同的假设下从$O(T ⁇ 3/4})提高到$O(Sqrt{T}),并用线性函数近似值对约束进行即时处理。我们的结果提供了第一个高概率的 $O(sqrt{T}) 。在这个设置中计算高效的算法。用神经网络函数近似法的精确执行在内存和计算方面是效率低下的。由于我们的分析表明,我们需要接近过去政策的行动价值函数的平均值,因此我们建议一个简单有效的执行方法,用过去的数据在重放缓冲器上训练一个单一的Q功能。我们显示,这往往导致比其他执行选择的高级性,特别是在墙时段时间。我们的工作也提供了一种新的理论理由,说明在政策内使用经验重置政策内的经验。

0

相关内容

经验回放

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Approximate Multi-Agent Fitted Q Iteration

Arxiv

0+阅读 · 2021年4月19日

Overcoming Catastrophic Forgetting with Gaussian Mixture Replay

Arxiv

1+阅读 · 2021年4月19日

Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement Learning

Arxiv

0+阅读 · 2021年4月19日

Distributed Value Function Approximation for Collaborative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年4月17日

Iterative Collaborative Filtering for Sparse Matrix Estimation

Iterative Collaborative Filtering for Sparse Matrix Estimation

Arxiv

0+阅读 · 2021年4月16日

Sequential Deconfounding for Causal Inference with Unobserved Confounders

Arxiv

1+阅读 · 2021年4月16日

Scale Invariant Solutions for Overdetermined Linear Systems with Applications to Reinforcement Learning

Scale Invariant Solutions for Overdetermined Linear Systems with Applications to Reinforcement Learning

Arxiv

0+阅读 · 2021年4月15日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Arxiv

9+阅读 · 2018年4月22日

VIP会员

文章信息

相关主题

相关VIP内容

ICLR 2021杰出论文奖出炉，8篇论文上榜！

专知会员服务

26+阅读 · 2021年4月2日

【ETH】最新《几何数据分析》2020课程，附PPT下载

专知会员服务

45+阅读 · 2020年12月18日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

Fariz Darari简明《博弈论Game Theory》介绍，35页ppt

专知会员服务

112+阅读 · 2020年5月15日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

在线变分推断，76页ppt，A Regret Bound for Online Variational Inference

专知会员服务

21+阅读 · 2019年12月2日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】在低维和高维空间中分析、建模和转换潜在表征

从无人机到数据：揭示边缘计算作为新作战域

可解释人工智能的基础

大规模视觉模型中的基于提示的适应：综述

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

动物脑的好奇心和强化学习的好奇心

动物脑的好奇心和强化学习的好奇心

CreateAMind

10+阅读 · 2019年1月26日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Approximate Multi-Agent Fitted Q Iteration

Arxiv

0+阅读 · 2021年4月19日

Overcoming Catastrophic Forgetting with Gaussian Mixture Replay

Arxiv

1+阅读 · 2021年4月19日

Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement Learning

Arxiv

0+阅读 · 2021年4月19日

Distributed Value Function Approximation for Collaborative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年4月17日

Iterative Collaborative Filtering for Sparse Matrix Estimation

Iterative Collaborative Filtering for Sparse Matrix Estimation

Arxiv

0+阅读 · 2021年4月16日

Sequential Deconfounding for Causal Inference with Unobserved Confounders

Arxiv

1+阅读 · 2021年4月16日

Scale Invariant Solutions for Overdetermined Linear Systems with Applications to Reinforcement Learning

Scale Invariant Solutions for Overdetermined Linear Systems with Applications to Reinforcement Learning

Arxiv

0+阅读 · 2021年4月15日

Differential Dynamic Programming Neural Optimizer

Arxiv

7+阅读 · 2020年6月29日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Arxiv

9+阅读 · 2018年4月22日

微信扫码咨询专知VIP会员