Improving sample efficiency has been a longstanding goal in reinforcement learning. This paper proposes $\mathtt{VRMPO}$ algorithm: a sample efficient policy gradient method with stochastic mirror descent. In $\mathtt{VRMPO}$, a novel variance-reduced policy gradient estimator is presented to improve sample efficiency. We prove that the proposed $\mathtt{VRMPO}$ needs only $\mathcal{O}(\epsilon^{-3})$ sample trajectories to achieve an $\epsilon$-approximate first-order stationary point, which matches the best sample complexity for policy optimization. The extensive experimental results demonstrate that $\mathtt{VRMPO}$ outperforms the state-of-the-art policy gradient methods in various settings.


翻译:提高抽样效率一直是加强学习的一个长期目标。 本文提出了 $\ matht{ VRMPO} 算法 : 一种具有随机镜像底部的抽样有效政策梯度方法。 在 $\ matht{ VRMPO} $ 中, 提出了一个新的差异变换政策梯度估计值, 以提高抽样效率。 我们证明, $\ matht{ VRMPO} 的建议只需要 $\ mathcal{ O} (\ psilon}-3} ) 美元 样本轨迹来实现 $\ explon$- 近似第一阶固定点, 与政策优化的最佳样本复杂性相匹配。 广泛的实验结果表明, $\ matht{ VRMPO} 显示, $matht{ VRMPO} 美元在各种环境下都比最先进的政策梯度方法要好。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
已删除
将门创投
7+阅读 · 2018年8月28日
Arxiv
0+阅读 · 2022年2月7日
Arxiv
0+阅读 · 2022年2月7日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关VIP内容
NeurIPS 2021 | 用简单的梯度下降算法逃离鞍点
专知会员服务
23+阅读 · 2021年12月6日
专知会员服务
50+阅读 · 2020年12月14日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
109+阅读 · 2020年5月15日
相关资讯
已删除
将门创投
7+阅读 · 2018年8月28日
Top
微信扫码咨询专知VIP会员