强化学习(RL)是一种有希望的训练智能体的框架,这些代理通过直接与环境互动来学习优化长期效用。创建可扩展到大规模状态-行动空间的RL方法是确保RL系统在现实世界中部署的关键问题。然而,几个挑战限制了RL在大规模设置中的适用性。这些包括与探索、低样本效率、计算不可行性、任务约束(如去中心化)有关的困难,以及关于在可能未见过的情况下的表现、泛化和稳健性等重要属性的保证的缺乏。
这篇论文的动机是为了弥合上述的差距。我们提出了几种原则性的算法和框架来研究和解决RL中的上述挑战。所提出的方法覆盖了广泛的RL设置(单一和多代理系统(MAS),后者中的所有变化,预测和控制,基于模型和无模型的方法,基于价值和基于策略的方法)。在这项工作中,我们针对几个不同的问题提出了首次的结果:例如,Bellman方程的张量化,这允许指数样本效率的增益(第4章),MAS中由结构约束导致的可证明的次优性(第3章),合作MAS中的组合泛化结果(第5章),关于观察偏移的泛化结果(第7章),在概率RL框架中学习确定性策略(第6章)。我们的算法明显地提高了性能和样本效率,并提高了可扩展性。此外,我们还阐述了在不同框架下代理的泛化方面。这些属性都是通过使用几种高级工具(例如,统计机器学习,状态抽象,变分推断,张量理论)来驱动的。总的来说,这篇论文的贡献显著推动了使RL代理准备好应用于大规模,真实世界应用的进程
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。