在过去的几十年里,强化学习(RL)已经成为解决复杂控制任务的有效方法。马尔可夫决策过程(MDP)是描述人工智能与环境之间顺序交互的典型模型。在MDP中,智能体感知环境的状态并执行操作。因此,环境转换到一个新的状态,并产生一个奖励信号。智能体的目标包括学习一个策略,即最大化长期奖励的动作配方。在传统的环境设置中,环境被假定为一个固定的实体,不能从外部改变。然而,现实世界中存在一些场景,在这些场景中,环境可以在有限的程度上进行修改,因此,对其某些特性采取行动可能是有益的。我们将此活动称为环境配置,它可以由智能体本身或外部实体(如配置器)执行。尽管环境配置在实际应用中经常出现,但文献中很少探讨这个主题。在本论文中,我们旨在形式化和研究环境配置的各个方面。其贡献包括理论、算法和实验,可以大致细分为三个部分。论文的第一部分介绍了一种新的可配置马尔可夫决策过程(Configurable Markov Decision Processes, Conf-MDPs)的形式化描述方法,用于描述环境提供的配置机会。在直觉层面上,环境、策略和学习过程之间存在着紧密的联系。本文探讨了环境配置的不同细微差别,根据配置是完全辅助智能体的学习过程(合作设置),还是由具有可能与智能体的目标冲突的配置器(非合作设置)指导。在第二部分中,我们专注于协作的Conf-MDP设置,并研究了由寻找一个agent策略和一个环境配置组成的学习问题,该策略和环境配置共同优化长期回报。本文提供了有限和连续Conf-MDPs的求解算法,并在合成域和真实域上进行了实验评估。第三部分介绍了Conf-MDP框架的两个具体应用:策略空间识别和控制频率自适应。在前者中,我们利用环境可配置性来提高智能体的感知和驱动能力。在后者中,分析了特定的可配置环境参数,即控制频率,如何影响批量强化学习算法的性能。