在现实世界中,存在许多难以用数学方法指定的约束条件。然而,对于强化学习(RL)的现实部署来说,RL agent意识到这些约束条件是至关重要的,这样它们才能安全地行动。在这项工作中,我们考虑了学习约束的问题,从一个遵守约束的行为的示范。我们通过实验验证了我们的方法,并证明了我们的框架能够成功地学习agent所尊重的最有可能的约束。我们进一步证明,这些习得的约束是可转移到新个体的,这些新个体可能具有不同的形态和/或奖赏功能。在这方面,之前的工作要么主要局限于表格(离散)设置、特定类型的约束,要么假设环境的过渡动力学。相比之下,我们的框架能够在完全无模型的环境中学习高维中的任意文本{马尔可夫}约束。代码可在:\url{https://github.com/shehryar-malik/icrl}。
https://www.zhuanzhi.ai/paper/cc0692c939ea9044dd9344cd03994cbc