Deploying Reinforcement Learning (RL) agents to solve real-world applications often requires satisfying complex system constraints. Often the constraint thresholds are incorrectly set due to the complex nature of a system or the inability to verify the thresholds offline (e.g, no simulator or reasonable offline evaluation procedure exists). This results in solutions where a task cannot be solved without violating the constraints. However, in many real-world cases, constraint violations are undesirable yet they are not catastrophic, motivating the need for soft-constrained RL approaches. We present two soft-constrained RL approaches that utilize meta-gradients to find a good trade-off between expected return and minimizing constraint violations. We demonstrate the effectiveness of these approaches by showing that they consistently outperform the baselines across four different Mujoco domains.


翻译:部署强化学习(RL)代理商以解决现实世界应用往往需要满足复杂的系统限制。由于系统的复杂性或无法核实离线阈值(例如,不存在模拟器或合理的离线评估程序),往往错误地设定了限制阈值。这导致在不违反限制的情况下无法解决问题的解决办法。然而,在许多现实世界中,限制违规现象是不可取的,但却不是灾难性的,促使需要采用软约束的RL方法。我们提出了两种软约束的RL方法,利用元分法在预期返回和尽量减少限制违规之间找到一个良好的平衡点。我们通过表明这些方法始终超越四个不同的Mujoco域的基线来证明这些方法的有效性。

0
下载
关闭预览

相关内容

【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
专知会员服务
44+阅读 · 2020年10月31日
深度强化学习策略梯度教程,53页ppt
专知会员服务
179+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
0+阅读 · 2020年11月24日
Arxiv
0+阅读 · 2020年11月18日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关VIP内容
相关资讯
已删除
创业邦杂志
5+阅读 · 2019年3月27日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员