在现实世界中,存在许多难以用数学方法指定的约束条件。然而,对于强化学习(RL)的现实部署来说,RL agent意识到这些约束条件是至关重要的,这样它们才能安全地行动。在这项工作中,我们考虑了学习约束的问题,从一个遵守约束的行为的示范。我们通过实验验证了我们的方法,并证明了我们的框架能够成功地学习agent所尊重的最有可能的约束。我们进一步证明,这些习得的约束是可转移到新个体的,这些新个体可能具有不同的形态和/或奖赏功能。在这方面,之前的工作要么主要局限于表格(离散)设置、特定类型的约束,要么假设环境的过渡动力学。相比之下,我们的框架能够在完全无模型的环境中学习高维中的任意文本{马尔可夫}约束。代码可在:\url{https://github.com/shehryar-malik/icrl}。

https://www.zhuanzhi.ai/paper/cc0692c939ea9044dd9344cd03994cbc

成为VIP会员查看完整内容
33

相关内容

专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
24+阅读 · 2021年7月10日
专知会员服务
22+阅读 · 2021年6月26日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
37+阅读 · 2021年5月29日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
82+阅读 · 2021年5月10日
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
AlphaGo之父David Silver最新演讲,传授强化学习的十大原则
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月25日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
5+阅读 · 2020年6月16日
Fast AutoAugment
Arxiv
5+阅读 · 2019年5月1日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
24+阅读 · 2021年7月10日
专知会员服务
22+阅读 · 2021年6月26日
专知会员服务
25+阅读 · 2021年6月15日
专知会员服务
38+阅读 · 2021年6月3日
专知会员服务
37+阅读 · 2021年5月29日
专知会员服务
22+阅读 · 2021年5月27日
专知会员服务
28+阅读 · 2021年5月24日
专知会员服务
82+阅读 · 2021年5月10日
相关资讯
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
腊月廿八 | 强化学习-TRPO和PPO背后的数学
AI研习社
17+阅读 · 2019年2月2日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
AlphaGo之父David Silver最新演讲,传授强化学习的十大原则
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
微信扫码咨询专知VIP会员