元强化学习(Meta - reinforcement learning, Meta - rl)从以前的任务中提取知识,实现对新任务的快速适应。尽管最近取得了一些进展,但对元强化学习的有效探索仍然是稀疏奖励任务中的一个关键挑战,因为它需要在元训练和适应中快速找到与任务相关的信息性经验。针对这一挑战,我们明确建模了一个元强化学习的探索策略学习问题,该问题与开发策略学习分离,并引入了一个新的赋权驱动的探索目标,该目标旨在最大限度地获取信息以进行任务识别。我们得到了相应的内在奖励,并开发了一个新的非策略元强化学习框架,通过共享任务推理知识,有效地学习独立的上下文感知的探索和开发策略。实验结果表明,在不同的稀疏奖励MuJoCo运动任务和更复杂的稀疏奖励元世界任务中,我们的meta-RL方法显著优于最先进的基线。
https://www.zhuanzhi.ai/paper/8972d5b6f921acf471ca8b89afc45759