这篇论文的目标是通过交互学习来提高AI代理的知识表示能力,使其能够有效地规划并适应环境中的变化。论文的贡献横跨三个主题:学习和利用选择性注意力、时间抽象和可供性;目标是获得促进规划、超出分布泛化和快速适应的知识表示。 本工作的一个中心假设是,桥接状态和行动对于强化学习(RL)代理发展广泛智能行为是关键。我们首先关注利用计算模型来模拟人类视觉注意力,然后引入兴趣函数来学习专业化的、可复用的技能,以便快速适应和泛化到新的奖励动态中。接着,我们为RL代理发展了一个可供性的理论,并形式化了时间抽象的部分选项模型,旨在加快规划和更好的泛化。 展望持续性RL的目标,我们回顾了这个问题的现有定义,提出了一种方法的分类,并提供了文献中使用的基准和理解代理性能的重要指标的概述。最后,我们研究了在线元强化学习设置下模型不确定性下的规划问题,并展示了规划视界依赖于任务数量、每个任务的样本数量和底层任务相似性的概念。
这篇论文的目标是为发展能够处理所观察数据(“看”)、学习表示知识(“思”)并利用获得的信息进行规划(“行”)的人工智能(AI)系统贡献力量,这些系统具有随时间适应变化的能力。这类代理的应用包括:通过表示为时间上抽象的行为(跨多个时间步发生,例如“螺丝紧固件-一起”)的自动化仓库装配、在日常任务中为人类提供个人助理,这些任务需要抽象行动(例如“开门”)、通过跨多个时间步的推理来促进各种面向用户服务的自动化控制,如网页导航(例如“预订票”)、辅助技术,能够在不同情况下确定行动的可能性(即可供性),以在变化的环境中实现高级目标,如用于医院中的机器人导航等。 在这篇论文中,我们在强化学习(RL)(Sutton和Barto,1998b)的背景下追求这一目标,RL是一个框架,它使得一个交互式的决策代理能够学习如何在处理不确定性和有限的环境数据时实现目标。RL范式源自于实验心理学中的动物学习,并从神经科学中汲取了想法。例如,研究人员提供了关于人类能够选择性地关注视觉输入的某些部分(Borji等,2012;Judd等,2009)、收集相关信息,并顺序地结合观察结果以在不同的时间尺度上构建表示(Hayhoe和Ballard,2005;Zhang等,2019b),这可以指导感知和行动(Dayan等,2000;Kahneman,1973)。值得注意的是,在所有这些案例中,对状态和行动的良好理解都是至关重要的。为了提高RL代理在现实世界问题中的适用性和可扩展性,关键是要在状态和行动之间架起桥梁,以促进快速适应、健壯的泛化以及更高效地学习模型的更快规划。 虽然在推进RL的最新技术方面取得了巨大进展(Silver等,2016;Vinyals等,2019),但大多数当前方法缺乏对世界的基本理解以及与人类相比,持续学习和适应的能力(Mitchell,2021)。在这篇论文中,我们认为,选择性注意、时间抽象和可供性都是使代理不仅能够获得技能,而且能够在非平稳性面前继续适应和学习的必要组成部分。
为了激发选择性注意的需求,我们首先探索知道在图像中何处寻找(“看”)是否允许RL代理在执行任务时对干扰因素保持鲁棒性,尤其是面对非平稳性时。此外,大量证据表明,使人类能够适应变化并随时间改进的核心要素包括跨多个时间尺度使用抽象表示(Collins, 2018; Eckstein和Collins, 2018)、选择性时间注意(Zhang等,2019b)和层次化组织的行为(Botvinick等,2009)。我们通过定义具有兴趣函数的时间抽象行动为RL代理实现这一直觉;我们的实验显示,专业化是学习可重用、可解释技能的关键,这些技能使RL代理能够快速适应奖励中的非平稳性。 用于形式化注意力概念以建立抽象的自然框架是可供性理论(Gibson, 1977)。在心理学文献中(Chemero, 2003; Heft, 1989),可供性被视为代理-环境互动的属性。在这篇论文中,我们为RL代理定义了可供性,并展示了知道可供性的模型可以导致更快的规划和更好的泛化。此外,具身认知和感知的理论表明,人类能够以不同时间尺度的内部模型的形式表示知识(Pezzulo和Cisek, 2016)。我们以时间抽象的部分模型的形式阐述了这一洞见,这些模型利用了时间抽象和可供性,并且从理论上和实证上展示了它们可以提高学习和规划的效率。 最后,为了更接近现实世界的设置,我们研究了在线学习问题的表述,没有关于任务之间相似性或代理可能遇到的任务数量的先验知识。随着代理对其环境的基本结构获得更多知识,它应该能够以更长的规划视界和更高的确定性提前规划。我们将规划与在线学习之间的鸿沟桥接起来,以显示跨任务的元学习模型可以直接导致有效规划视界的适应。 总之,这篇论文的重点是通过超越状态抽象的知识表示来桥接状态和行动,并共同考虑行为(动作),朝着使持续RL代理能力成为目标。这篇论文提出了学习专业化时间抽象表示的新方法,将学习植根于直观的可供性理论,并学习具有不断增长的视界的规划以实现持续适应。
为了发展广泛的智能行为,这项工作的中心假设是,桥接状态和行动对于表示知识、利用它进行规划并能够随时间适应环境变化至关重要。在这篇论文中,我们展示了如何通过选择性注意在原始行为和时间上抽象的行为的表示中桥接状态和行动,以快速适应非平稳性,并引入了表示世界动态的新方法,以促进更快的规划和更好的泛化。最后,我们探索在线学习设置中的规划,以显示元学习一个世界模型可以进一步改进理论和实证结果,导致能够规划越来越长视界的代理。图1.1提供了本论文的概述。