强化学习(Reinforcement Learning, RL)是一种训练人工智能体自主与世界互动的方法。然而,在实践中,强化学习仍然有局限性,禁止在许多现实世界环境中部署强化学习智能体。这是因为RL需要很长时间,通常需要人工监督,并产生在不熟悉的情况下可能表现出出乎意料的特殊智能体。本文的目标是使RL智能体在现实世界中部署时更加灵活、稳健和安全。我们开发具有快速适应能力的智能体,即能够有效学习新任务的智能体。为此,我们使用元强化学习(Meta- RL),在这里我们不仅教智能体自主行动,而且教智能体自主学习。基于快速适应可以分为“任务推理”(理解任务)和“任务求解”(解决任务)的直觉,我们提出了四种新的元RL方法。我们假设这种分离可以简化优化,从而提高性能,并且更适合下游任务。为了实现这一点,我们提出了一种基于上下文的方法,在这种方法中,智能体以表示其对任务的当前知识的上下文为条件。然后,智能体可以使用这一点来决定是进一步了解任务,还是尝试解决它。在第5章中,我们使用确定性上下文,并确定这确实可以提高性能并充分捕获任务。在接下来的章节中,我们将在上下文中引入贝叶斯推理,以实现在任务不确定性下的决策。通过结合元强化学习、基于上下文的学习和近似变分推理,开发了为单智能体设置(第6章)和多智能体设置(第7章)计算近似贝叶斯最优智能体的方法。最后,第8章解决了稀疏奖励的元学习的挑战,这是许多现实世界应用的重要设置。观察到,如果奖励稀疏,现有的元强化学习方法可能会完全失败,并提出一种方法来克服这一问题,即鼓励智能体在元训练期间进行探索。我们以对当前发展背景下的工作的反思和对开放问题的讨论来结束论文。综上所述,本文的研究成果极大地推动了基于Meta-RL的快速适应领域的发展。本文开发的智能体可以比以前的任何方法更快地适应各种任务,并且可以为比以前可能的更复杂的任务分布计算近似贝叶斯最优策略。我们希望这有助于推动Meta-RL研究的发展,并从长远来看,利用RL解决重要的现实世界挑战。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。