在过去的几十年里,强化学习(RL)已经成为解决复杂控制任务的有效方法。马尔可夫决策过程(MDP)是描述人工智能与环境之间顺序交互的典型模型。在MDP中,智能体感知环境的状态并执行操作。因此,环境转换到一个新的状态,并产生一个奖励信号。智能体的目标包括学习一个策略,即最大化长期奖励的动作配方。在传统的环境设置中,环境被假定为一个固定的实体,不能从外部改变。然而,现实世界中存在一些场景,在这些场景中,环境可以在有限的程度上进行修改,因此,对其某些特性采取行动可能是有益的。我们将此活动称为环境配置,它可以由智能体本身或外部实体(如配置器)执行。尽管环境配置在实际应用中经常出现,但文献中很少探讨这个主题。在本论文中,我们旨在形式化和研究环境配置的各个方面。其贡献包括理论、算法和实验,可以大致细分为三个部分。论文的第一部分介绍了一种新的可配置马尔可夫决策过程(Configurable Markov Decision Processes, Conf-MDPs)的形式化描述方法,用于描述环境提供的配置机会。在直觉层面上,环境、策略和学习过程之间存在着紧密的联系。本文探讨了环境配置的不同细微差别,根据配置是完全辅助智能体的学习过程(合作设置),还是由具有可能与智能体的目标冲突的配置器(非合作设置)指导。在第二部分中,我们专注于协作的Conf-MDP设置,并研究了由寻找一个agent策略和一个环境配置组成的学习问题,该策略和环境配置共同优化长期回报。本文提供了有限和连续Conf-MDPs的求解算法,并在合成域和真实域上进行了实验评估。第三部分介绍了Conf-MDP框架的两个具体应用:策略空间识别和控制频率自适应。在前者中,我们利用环境可配置性来提高智能体的感知和驱动能力。在后者中,分析了特定的可配置环境参数,即控制频率,如何影响批量强化学习算法的性能。

成为VIP会员查看完整内容
28

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【斯坦福博士论文】智能机器人行为自适应学习,141页pdf
【2023博士论文】《游戏和强化学习》北卡州立大学
专知会员服务
84+阅读 · 2023年1月27日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
基于模型的强化学习综述
专知会员服务
132+阅读 · 2022年7月13日
【布朗大学David Abel博士论文】强化学习抽象理论,297页pdf
基于模型的强化学习综述
专知
18+阅读 · 2022年7月13日
【实用书】强化学习实战:Python,110页pdf
【干货】强化学习介绍
人工智能学家
13+阅读 · 2018年6月24日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年4月21日
Arxiv
1+阅读 · 2023年4月21日
Arxiv
0+阅读 · 2023年4月21日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
44+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员