主题: An operator view of policy gradient methods

摘要: 我们将策略梯度方法转换为两个运算符的重复应用:策略改进运算符I(将任何策略π映射到更好的Iπ)和投影运算符P,其在可实现策略集中找到Iπ的最佳近似。 我们使用此框架来引入传统策略梯度方法(如Reinforce和PPO)的基于操作员的版本,从而更好地理解了它们的原始版本。 我们还利用对I和P作用的认识,提出了预期收益的新的全局下限。 这种新的视角使我们能够进一步弥合基于策略的方法和基于价值的方法之间的鸿沟,例如,展示了如何将Reinforce和Bellman最优算子视为同一枚硬币的两个方面。

成为VIP会员查看完整内容
10

相关内容

【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
197+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
资源 | NIPS 2017 Spotlight论文Bayesian GAN的TensorFlow实现
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
相关资讯
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
资源 | NIPS 2017 Spotlight论文Bayesian GAN的TensorFlow实现
微信扫码咨询专知VIP会员