Many policy gradient methods optimize the objective, $\max_{\pi}E_{\pi}[A_{\pi_{old}}(s,a)]$, where $A_{\pi_{old}}$ is the advantage function of the old policy. The objective is not feasible to be directly optimized because we don't have samples for the new policy yet. Thus the importance sampling (IS) ratio arises, giving an IS corrected objective or the CPI objective, $\max_{\pi}E_{\pi_{old}}[\frac{\pi(s,a)}{\pi_{old}(s,a)}A_{\pi_{old}}(s,a)]$. However, optimizing this objective is still problematic due to extremely large IS ratios that can cause algorithms to fail catastrophically. Thus PPO uses a surrogate objective, and seeks an approximation to the solution in a clipped policy space, $\Pi_{\epsilon}=\{\pi; |\frac{\pi(s,a)}{\pi_{old}(s,a)}-1|<\epsilon \}$, where $\epsilon$ is a small positive number. One question that drives this paper is, {\em How grounded is this hypothesis that $\Pi_{\epsilon}$ contains good enough policies?} {\bfseries Does there exist better policies outside of $\mathbf{\Pi_{\epsilon}}$?} Using a novel surrogate objective that employs the sigmoid function resulting in an interesting way of exploration, we found that there indeed exists much better policies out of $\Pi_{\epsilon}$; In addition, these policies are located very far from it. We compare with several best-performing algorithms on both discrete and continuous tasks and the results showed that {\em PPO is insufficient in off-policyness}, and our new method P3O is {\em more off-policy} than PPO according to the "off-policyness" measured by the {\em DEON off-policy metric}, and P3O {\em \bfseries explores in a much larger policy space} than PPO.


翻译:许多政策梯度方法优化了目标, $max ⁇ pi}E ⁇ pí}[A ⁇ pi ⁇ old ⁇ (a,a)]$A ⁇ pi ⁇ old ⁇ (a,a)$是旧政策的好处功能。 目标无法直接优化, 因为我们还没有新政策样本。 因此, 重要取样( IS) 比率产生, 给 IS 纠正目标或CPI 目标, $maxíp} E ⁇ pi} [\\ precicial $(s,a)\\pieold} (s,a) A ⁇ pi{d} 美元(s) a) a) a (a) a (a) a (d) a (d) a (d) a (d) a (d) a (d) a (d) (d) (d) (d) (d) (d) (d) (a) (d) (d) (d (d) (d (d) (d) (d) (d (e) (d) (e) (e) (e) (e (e (e) (e) (e) (e) (e) (e) (e) (d) (e (e) (e) (e) (e) (e) (e) (e) (e) (e (e) (e) (e) (e) (a) (a) (a) (a) (a) (d) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (a) (d) (a) (a) (a) (a) (a) (a) (a) (a) (d) (d) (a) (d) (d) (d) (d) (d) (d)) (d) (d) (d) (d) (d) (d) (d) (d) (a) (a) (d) (d

0
下载
关闭预览

相关内容

【2022新书】强化学习工业应用,408页pdf
专知会员服务
223+阅读 · 2022年2月3日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
148+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关VIP内容
【2022新书】强化学习工业应用,408页pdf
专知会员服务
223+阅读 · 2022年2月3日
专知会员服务
52+阅读 · 2020年9月7日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
148+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
VCIP 2022 Call for Special Session Proposals
CCF多媒体专委会
1+阅读 · 2022年4月1日
AIART 2022 Call for Papers
CCF多媒体专委会
1+阅读 · 2022年2月13日
【ICIG2021】Latest News & Announcements of the Workshop
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
【ICIG2021】Latest News & Announcements of the Industry Talk1
中国图象图形学学会CSIG
0+阅读 · 2021年7月28日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员