【米兰理工学院博士论文】强化学习中环境可配置性的利用，304页pdf

在过去的几十年里，强化学习(RL)已经成为解决复杂控制任务的有效方法。马尔可夫决策过程(MDP)是描述人工智能与环境之间顺序交互的典型模型。在MDP中，智能体感知环境的状态并执行操作。因此，环境转换到一个新的状态，并产生一个奖励信号。智能体的目标包括学习一个策略，即最大化长期奖励的动作配方。在传统的环境设置中，环境被假定为一个固定的实体，不能从外部改变。然而，现实世界中存在一些场景，在这些场景中，环境可以在有限的程度上进行修改，因此，对其某些特性采取行动可能是有益的。我们将此活动称为环境配置，它可以由智能体本身或外部实体(如配置器)执行。尽管环境配置在实际应用中经常出现，但文献中很少探讨这个主题。在本论文中，我们旨在形式化和研究环境配置的各个方面。其贡献包括理论、算法和实验，可以大致细分为三个部分。论文的第一部分介绍了一种新的可配置马尔可夫决策过程(Configurable Markov Decision Processes, Conf-MDPs)的形式化描述方法，用于描述环境提供的配置机会。在直觉层面上，环境、策略和学习过程之间存在着紧密的联系。本文探讨了环境配置的不同细微差别，根据配置是完全辅助智能体的学习过程(合作设置)，还是由具有可能与智能体的目标冲突的配置器(非合作设置)指导。在第二部分中，我们专注于协作的Conf-MDP设置，并研究了由寻找一个agent策略和一个环境配置组成的学习问题，该策略和环境配置共同优化长期回报。本文提供了有限和连续Conf-MDPs的求解算法，并在合成域和真实域上进行了实验评估。第三部分介绍了Conf-MDP框架的两个具体应用:策略空间识别和控制频率自适应。在前者中，我们利用环境可配置性来提高智能体的感知和驱动能力。在后者中，分析了特定的可配置环境参数，即控制频率，如何影响批量强化学习算法的性能。

成为VIP会员查看完整内容

相关内容

博士论文

关注 121

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】智能机器人行为自适应学习，141页pdf

专知会员服务

54+阅读 · 2023年4月15日

【阿姆斯特丹博士论文】为强化学习和计算机视觉应用构建深度学习模型，216页pdf

专知会员服务

50+阅读 · 2023年3月22日

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

42+阅读 · 2023年2月25日

【2023博士论文】《游戏和强化学习》北卡州立大学

专知会员服务

98+阅读 · 2023年1月27日