主题: An operator view of policy gradient methods

摘要: 我们将策略梯度方法转换为两个运算符的重复应用:策略改进运算符I(将任何策略π映射到更好的Iπ)和投影运算符P,其在可实现策略集中找到Iπ的最佳近似。 我们使用此框架来引入传统策略梯度方法(如Reinforce和PPO)的基于操作员的版本,从而更好地理解了它们的原始版本。 我们还利用对I和P作用的认识,提出了预期收益的新的全局下限。 这种新的视角使我们能够进一步弥合基于策略的方法和基于价值的方法之间的鸿沟,例如,展示了如何将Reinforce和Bellman最优算子视为同一枚硬币的两个方面。

成为VIP会员查看完整内容
11

相关内容

【圣经书】《强化学习导论(2nd)》电子书与代码,548页pdf
专知会员服务
208+阅读 · 2020年5月22日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
Viewpoint Estimation-Insights & Model
Arxiv
3+阅读 · 2018年7月3日
VIP会员
相关资讯
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
18+阅读 · 2019年2月2日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
微信扫码咨询专知VIP会员