代理的泛化能力——在面对以前未见过的情况和数据时表现良好——对于人工智能系统的可靠性、自主性和功能性至关重要。泛化测试检查代理在抽象方式上推理世界的能力。在强化学习问题设置中,代理持续与环境交互,可能有多种抽象的概念。基于状态的抽象允许在环境中具有相似属性的不同观测之间进行泛化行为。另一方面,时间抽象关注于代理自身行为的泛化。这种形式的抽象允许代理以统一的方式推理不同的行为序列,这些序列可能导致相似的结果。数据抽象指的是代理可能需要使用从一个采样分布中获得的信息,而在不同的采样分布上进行评估。
本论文在状态抽象、时间抽象和强化学习算法的有限数据泛化性能问题上,开发了算法、理论和实证结果。为了聚焦于数据抽象,我们探索了一个模仿学习设置。我们提供了一种完全离线模仿学习的新算法,以及一个离线强化学习算法的实证评估流程,鼓励诚实和原则性的数据复杂性结果,阻止算法超参数对报告测试分数的环境过度拟合。为了更深入地探讨状态抽象,我们提供了目标网络性能的有限样本分析——深度强化学习的一个关键架构元素。通过在完全非线性设置中进行分析,我们能够帮助解释基于非线性神经网络的函数逼近的强大性能。最后,我们考虑时间抽象的问题,提供了一种半监督(部分无奖励)技能学习的算法。这种算法改进了变分选项发现框架——解决了该领域一个关键的未规范问题——通过定义以学习的、依赖奖励的状态抽象为条件的技能。
强化学习(RL)是机器学习(ML)的一个子领域,专注于序列行为的研究。正是这种序列特征使得RL在能够解决的问题复杂性上,以及在RL算法的开发和分析中出现的挑战和病理问题上,区别于其他形式的学习。所谓序列行为,意味着RL代理必须学会做出智能决策,尽管代理最终观察到的数据是由它之前所做的决策决定的。这就带来了RL独有的一系列挑战。与在监督学习(SL)中对静态数据集和静态目标进行模式匹配函数拟合不同——RL算法必须管理如探索需求、长期信用分配以及可能随时间变化的分布中抽取的随机数据等内在问题。
然而,这些挑战也带来了巨大的潜力:资源分配问题[Rust, 1987]、机器人自动化[Khan et al., 2020],乃至人类和动物学习[Botvinick et al., 2019]都自然地被模型化为序列决策问题。实际上,RL以最为人熟悉的形式表达了学习——人类、动物、植物和微生物都被驱使整合来自环境的知识,并利用这些信息来适应和改善他们的条件。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。