深度强化学习(RL)为训练最优序列决策智能体提供了强大的方法。由于收集现实世界的交互可能带来额外的成本和安全风险,通常的模拟到现实(sim2real)范式是在模拟器中进行训练,随后在现实世界中部署。然而,RL智能体容易过拟合于选定的模拟训练环境,并且更糟的是,一旦智能体掌握了特定的模拟环境集合,学习就会结束。与此相反,现实世界是高度开放的——特征是不断演变的环境和挑战,使得这种RL方法不适用。仅在大量模拟环境空间中进行随机化是不够的,因为这需要做出任意的分布假设,随着设计空间的增长,抽样对于学习有用的特定环境实例的可能性组合上会变得越来越小。理想的学习过程应该自动调整训练环境,以最大化智能体在开放式任务空间中的学习潜力,该任务空间与现实世界的复杂性相匹配或超越。本论文开发了一类称为无监督环境设计(UED)的方法,旨在通过原则性的方法逐渐提高学习智能体的鲁棒性和通用性,从而启用这样一个开放式过程。在给定的潜在开放式环境设计空间中,UED自动生成一个无限序列或课程表的训练环境,这些环境位于学习智能体能力的前沿。通过广泛的实证研究和基于最小最大后悔决策理论和博弈论的理论论证,本论文的发现显示,UED自动课程可以产生显著提升鲁棒性和泛化能力的RL智能体,使其能够应对以前未见的环境实例。这样的自动课程是朝向开放式学习系统的有前途的路径,这种系统接近通用智能——这是人工智能研究长期追求的目标——通过不断生成并掌握自己设计的更多挑战。