This paper presents a distributionally robust Q-Learning algorithm (DrQ) which leverages Wasserstein ambiguity sets to provide probabilistic out-of-sample safety guarantees during online learning. First, we follow past work by separating the constraint functions from the principal objective to create a hierarchy of machines which estimate the feasible state-action space within the constrained Markov decision process (CMDP). DrQ works within this framework by augmenting constraint costs with tightening offset variables obtained through Wasserstein distributionally robust optimization (DRO). These offset variables correspond to worst-case distributions of modeling error characterized by the TD-errors of the constraint Q-functions. This procedure allows us to safely approach the nominal constraint boundaries with strong probabilistic safety guarantees. Using a case study of safe lithium-ion battery fast charging, we demonstrate dramatic improvements in safety and performance relative to conventional methods.


翻译:本文介绍了一种分布上稳健的Q-Learn算法(DrQ),它利用瓦森斯坦语的模糊性,在网上学习期间提供概率超出抽样的安全保障。首先,我们跟踪以往的工作,将制约功能与创建一种机器等级的主要目的区分开来,以在受限制的Markov决策过程中估计可行的国家行动空间。DrQ在这个框架内工作,通过收紧通过瓦森斯坦语分配上稳健的优化(DRO)获得的抵消变量来增加制约成本。这些抵消变量与限制功能的TD-rors特征的模型错误最坏的分布相对。这一程序使我们能够安全地接近名义限制界限,并有很强的概率安全保障。我们通过对安全的锂离子电池快速充电进行案例研究,展示了相对于常规方法的安全和性能的巨大改善。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月7日
专知会员服务
16+阅读 · 2020年12月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
4+阅读 · 2020年1月17日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
6+阅读 · 2021年6月24日
Arxiv
64+阅读 · 2021年6月18日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
4+阅读 · 2020年1月17日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员