强化学习(RL)智能体需要探索他们的环境,以便通过试错学习最优策略。然而,当奖励信号稀疏,或当安全是一个关键问题和某些错误是不可接受的时候,探索是具有挑战性的。在本论文中,我们通过修改智能体解决的潜在优化问题,激励它们以更安全或更有效的方式探索,来解决深度强化学习设置中的这些挑战。
在这篇论文的第一部分,我们提出了内在动机的方法,在奖励稀少或缺乏的问题上取得进展。我们的第一种方法使用内在奖励来激励智能体访问在学习动力学模型下被认为是令人惊讶的状态,并且我们证明了这种技术比单纯探索更好。我们的第二种方法使用基于变分推理的目标,赋予个体不同的多种技能,而不使用特定任务的奖励。我们证明了这种方法,我们称为变分选择发现,可以用来学习运动行为的模拟机器人环境。
在论文的第二部分,我们重点研究了安全勘探中存在的问题。在广泛的安全强化学习研究的基础上,我们提出将约束的RL标准化为安全探索的主要形式; 然后,我们继续开发约束RL的算法和基准。我们的材料展示按时间顺序讲述了一个故事:我们首先介绍约束策略优化(Constrained Policy Optimization, CPO),这是约束深度RL的第一个算法,在每次迭代时都保证接近约束的满足。接下来,我们开发了安全健身基准,它让我们找到CPO的极限,并激励我们向不同的方向前进。最后,我们发展了PID拉格朗日方法,其中我们发现对拉格朗日原-对偶梯度基线方法进行小的修改,可以显著改善求解Safety Gym中约束RL任务的稳定性和鲁棒性。
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html