构建能够有效解决各种问题的通用RL算法需要将正确的结构和表示编码到我们的模型中。我们泛化能力的一个关键组成部分是我们开发世界内部模型的能力,该模型可以用于稳健的预测和有效的规划。在本论文中,我们讨论了如何利用表示学习来学习更好的物理场景预测模型,并使agent能够在基于模型的RL框架下通过规划学习到的模型来推广到新的任务。我们将介绍两种能够实现良好泛化的抽象:对象级表示形式的状态抽象和分层RL的技能表示形式的时间抽象。通过将这些抽象概念整合到我们的模型中,我们可以在长期、多阶段的问题上实现高效的学习和组合推广。我们还讨论了元学习在自动学习一般RL算法的正确结构中的作用。利用大规模的基于进化的计算,我们可以学习通用的RL算法,这些算法在各种任务中具有更好的样本效率和最终性能。最后,我们将介绍如何使用这些内部模型来计算RL目标本身,并在不设计奖励函数的情况下训练具有复杂行为的一般RL代理。