在许多实际情境中,安全探索对于增强学习(RL)的实用性至关重要。在本文中,我们提出了一个通用安全探索(GSE)问题,作为常见安全探索问题的统一公式。接着,我们提出了一个安全探索的元算法MASE作为GSE问题的解决方案,该算法结合了一个无约束的RL算法和一个不确定性量化器,以保证在当前情节中的安全,同时在实际安全违规之前适当地惩罚不安全的探索,以防止它们在未来的情节中出现。MASE的优势在于,我们可以在保证有很高概率不会违反任何安全约束的情况下,优化策略。具体来说,我们提出了两种不同构造的不确定性量化器的MASE变体:一种基于带有安全和接近最优性理论保证的广义线性模型,另一种结合了高斯过程以确保安全性和深度RL算法以最大化奖励。最后,我们证明了我们提出的算法在格子世界和Safety Gym基准测试中比现有技术更优秀,即使在训练期间也不违反任何安全约束。

https://www.zhuanzhi.ai/paper/bfda323a5d9d59281497f4e599b516b8

成为VIP会员查看完整内容
33

相关内容

【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
37+阅读 · 2022年5月21日
【CVPR2022】整合少样本学习的分类和分割
专知会员服务
26+阅读 · 2022年3月31日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
43+阅读 · 2021年12月6日
【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策
专知会员服务
54+阅读 · 2021年5月27日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
VIP会员
相关VIP内容
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
37+阅读 · 2022年5月21日
【CVPR2022】整合少样本学习的分类和分割
专知会员服务
26+阅读 · 2022年3月31日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
43+阅读 · 2021年12月6日
【IJCAI2021】复杂知识库问答研究: 方法、挑战与对策
专知会员服务
54+阅读 · 2021年5月27日
【CVPR2021】多实例主动学习目标检测
专知会员服务
41+阅读 · 2021年4月18日
【ICLR2021】通过多种自监督方式提升GAT中注意力
专知会员服务
43+阅读 · 2021年2月27日
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员