We propose policy-gradient algorithms for solving the problem of control in a risk-sensitive reinforcement learning (RL) context. The objective of our algorithm is to maximize the distorted risk measure (DRM) of the cumulative reward in an episodic Markov decision process (MDP). We derive a variant of the policy gradient theorem that caters to the DRM objective. Using this theorem in conjunction with a likelihood ratio (LR) based gradient estimation scheme, we propose policy gradient algorithms for optimizing DRM in both on-policy and off-policy RL settings. We derive non-asymptotic bounds that establish the convergence of our algorithms to an approximate stationary point of the DRM objective.


翻译:我们提出政策梯度算法,以解决在风险敏感强化学习(RL)背景下的控制问题。我们的算法的目标是最大限度地扩大在附带的Markov决定程序中累积奖励的扭曲风险计量(DRM)。我们从政策梯度定理中得出一个符合DRM目标的变式。我们利用这个定理法和基于可能性比率的梯度估计办法,提出政策梯度算法,在政策和非政策RL设置中优化DRM。我们得出了非不设防线,使我们的算法与DRM目标的大致固定点相一致。

1
下载
关闭预览

相关内容

DRM:ACM Workshop on Digital Rights Management。 Explanation:数码版权管理研讨会。 Publisher:ACM。 SIT: http://dblp.uni-trier.de/db/conf/drm/
专知会员服务
51+阅读 · 2020年12月14日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员