强化学习具有在复杂环境下自动获取行为的潜力,但为了成功地部署它,必须解决许多实际的挑战。首先,在实际设置中,当代理尝试某个任务并失败时,环境必须以某种方式“重置”,以便代理能够再次尝试该任务。虽然在模拟中很容易,但在现实世界中可能需要相当多的人力,特别是在试验数量非常大的情况下。第二,现实世界的学习通常涉及复杂的、时间上延伸的行为,这种行为通常很难通过随机探索获得。虽然这两个问题乍一看似乎是不相关的,但在本研究中,我们将展示一个单一的方法如何允许代理在最小的监督下获得技能,同时消除重置的需要。我们这样做是通过利用这样的洞察力:为学习任务将代理“重置”为一组广泛的初始状态的需要,提供了一种学习多种“重置技能”的自然设置。我们提出了一个平衡重置目标和学习技能的通用和博弈公式,并证明了这种方法提高了无重置任务的性能,另外,我们获得的技能可以用来显著加速下游学习。