【牛津大学博士论文】深度具身智能体的空间推理与规划

人类能够通过规划、推理和预测行为的结果来完成具有长期目标的复杂任务。为了使具身智能体（如机器人）实现类似的能力，它们必须获得环境知识，能够在有限的试错预算下迁移到新场景中。基于学习的方法，如深度强化学习，能够从数据中发现并利用应用领域的内在规律和特征，并不断提高其性能，但代价是需要大量的训练数据。本论文探讨了空间推理与规划任务的数据驱动技术的发展，重点在于提高学习效率、可解释性和跨新场景的可迁移性。论文有四项主要贡献。

首先，CALVIN 是一个差分规划器，它学习可解释的世界模型用于长期规划。通过从专家示范中学习奖励（目标和障碍）和状态转换（机器人动力学），CALVIN 成功地在部分可观测的3D环境中导航，例如迷宫和室内房间。其次，SOAP 是一种强化学习算法，用于无监督地发现用于长时间任务的宏观动作（选项）。选项将任务分解为子任务，并能够一致地执行这些子任务。SOAP 在基于历史条件的走廊任务以及经典基准如Atari上展示了强大的表现。第三，LangProp 是一个使用大型语言模型（LLMs）解决具身智能体问题的代码优化框架，它通过将代码视为可学习的策略进行推理。该框架在CARLA自动驾驶基准测试中生成了可解释的代码，表现与人类专家编写的代码相当或更优。最后，Voggite 是一个具身智能体，采用视觉到动作的Transformer后端，在Minecraft中解决复杂任务。它通过识别动作触发器，将任务分解为多个阶段，在MineRL BASALT竞赛中获得了第三名。这些进展为基于学习的方法在复杂空间推理与规划挑战中的应用提供了新的途径。关键词 — 机器学习，神经网络，深度强化学习，模仿学习，层次化强化学习，策略优化，机器人技术，自动驾驶，具身智能体，选项发现，技能学习，导航，规划，计算机视觉，大型语言模型，多模态基础模型。

1.1 动机

人类在新环境中能够规划、推理并预测行为的结果，这是人类完成具有长期目标的复杂任务的显著能力。无论是面对新的游戏、运动或位置，即使我们从未经历过该特定情况，我们仍能通过从先前的经验中推断，利用可迁移的知识和技能进行战略规划。通过现代规划算法，如果环境动态（特别是状态转换和奖励动态）完全已知，状态和动作可以枚举，并且计算资源无限，那么可以找到规划问题的近似最优解。不幸的是，这三种假设往往都不成立。智能体通常只能访问环境的局部或部分观测，并必须基于此估计潜在的环境状态和动态。状态和动作通常是连续的，而非离散的，因此需要一个估计器来将连续输入映射为有意义的表示，以推广到新输入。最后，由于计算资源有限，状态和动作的枚举通常是不可行的，因此需要一种有效的策略，在有限的计算资源和智能体生命周期内探索状态-动作空间。许多涉及战略决策的现实问题需要智能体学习可迁移的环境知识，以便在有限的试错预算下应用于新场景。构思一个算法，在开放领域中达到与人类相同的性能和效率水平，仍然是一个未解决的问题。例如，自动驾驶[251]仍是一个正在进行且尚未解决的研究领域，因为它涉及多智能体问题设置中的动态环境的高度复杂性，以及不完善信息和噪声传感器输入的挑战。这与工业机器人形成了鲜明对比，工业机器人已经有效运行了几十年，受益于环境的可控性、可预测性，并且在许多情况下是完全已知的。结合任务的重复性，这使得人类可以对系统进行硬编码，以处理常见的预期场景。马尔可夫决策过程（MDP）和强化学习（RL）是将决策制定为具有数学定义目标的可学习问题的强大框架[213]。这些框架捕捉了与环境交互的顺序性和时间演变性。神经网络的进展及其成功与RL的整合[138, 139, 201]改变了计算机视觉和机器人领域，催生了基于学习的方法来解决传统上由人类手动实现专家系统的问题。基于学习的方法有两个主要优势。首先，基于学习的算法可以随着数据的增加，不断改进并适应应用领域，而手动实现的方法是固定的，无法学习和适应。其次，基于学习的方法能够自动发现应用领域的内在规律和特征，并利用它们来提高性能，而无需硬编码这些策略。虽然RL在解决复杂的战略问题方面非常有效[10, 12, 138, 202, 229]，但样本效率和可泛化性仍是需要解决的挑战。当前最先进的RL算法在训练的任务或通过反应性策略可以解决的任务中表现优异，但无法轻松学习可迁移的技能[145, 162, 163, 174, 198]。与可以轻松生成样本的游戏或模拟任务不同，在现实世界问题中，收集样本可能成本高昂且不安全。人类可以通过学习可迁移的知识和技能，绕过这些问题，并通过较少的试错来提高成功的机会，避免灾难性失败，如从悬崖跌落或被汽车撞到。本研究旨在提出获取技能的方法，使智能体能够更高效、更有效地学习执行任务。

1.2 研究目标

本研究旨在解决涉及空间推理、规划和决策制定的任务，采用数据驱动的方法，同时提高学习的效率、可解释性和可迁移性。研究目标可以进一步分为五个具体目标，详细描述如下。

**1.2.1 学习可泛化的规划器

本研究的核心目标之一是开发能够泛化到新场景的可学习规划器。反应性马尔可夫策略与带有计划的策略的区别在于，反应性策略根据当前状态或局部观测做出即时决策，而规划涉及对给定情境进行长期分析，以提出空间和时间上一致的解决方案。这两种方法的差异类似于文献[106]中提出的系统1（快速、无意识和自动决策）和系统2（缓慢、意识到且严谨的决策）的思维方式。两种决策过程都很重要，因为反应性策略在实时做出大量决策时很有用，而规划则确保决策的一致性和连贯性。例如，基于蒙特卡洛树搜索（MCTS）的算法[201, 202]在学习反应性策略和用于长期规划之间交替进行；蒙特卡洛树的回滚[40]被模拟，返回估计通过轻量级反应性策略进行反向传播，然后根据回滚结果更新该策略。虽然诸如围棋和模拟环境的动态是已知的，但对于许多现实问题而言并非如此。基于模型的RL方法[75, 79, 190]通过学习环境模型来解决这一问题，该模型可用于模拟回滚。第3章探讨了相关的替代途径，学习一个可微规划器，解决在新环境中无法通过反应性策略有效解决的导航任务。第5章提出了一种通过将代码视为可学习策略，使用大型语言模型（LLMs）学习算法决策制定的新范式。通过使算法可学习，之前对于RL智能体来说过于复杂的高级和长期计划，现在可以通过模仿学习（IL）和RL技术来学习。此外，第4章和第6章展示了如何使用选项[166, 214]的时间抽象帮助智能体做出明智的长期决策，分别在1.2.2节和1.2.3节中讨论。

**1.2.2 发现可重用技能

技能学习是高效探索、决策制定和解决任务的另一个重要组成部分。有了技能，可以构思一个将低级技能策略组合并协调起来的高级计划。这些技能专门用于解决任务的子集，使智能体能够通过将这些技能组合在一起，从较少的训练样本中学习解决复杂的新任务的方法。在第4章中探索了这些技能如何通过使用环境奖励作为学习信号以无监督方式学习。智能体的轨迹被分割为与技能相关的选项[166, 214]，对应于特定子策略的技能。

**1.2.3 使用增强记忆的策略解决POMDP环境

与1.2.2节相关，选项不仅可以用于学习技能，还可以用于学习时间上一致的行为。它作为离散潜变量向前传递的记忆，使智能体能够在部分可观测的马尔可夫决策过程（POMDP）环境中执行任务，其中无法仅从当前观测确定环境的潜在状态。通过维护智能体轨迹的历史，可以更好地确定环境的真实状态，因为过去的观测通常与未来的观测通过隐藏变量相关联。第4章考察了通过具有不同训练目标的算法发现的选项的有效性和鲁棒性，展示了所提出的解决方案相对于经典的循环策略和Option-Critic策略[9, 111]的优势。在第6章中，技能和轨迹分割的概念被用于让智能体为任务完成的不同阶段改变其策略。将复杂任务分解为子组件并分阶段执行，使智能体能够执行时间上一致的行为，并遵循高级计划。

**1.2.4 解释专家和智能体的行为

本研究探讨的另一个主题是对学习到的策略的可解释性。前面讨论的技能学习是一种确保更好可解释性的方法，因为选项以语义可解释的方式分割了智能体的轨迹。第3章中探索了另一种可解释性方法；一个可微规划器从机器人导航的专家轨迹中学习目标、障碍物和运动动态。它还在决策过程中计算奖励图和价值图，类似于逆向强化学习（IRL）[6, 148, 260, 261]。第5章中提出了一种更为明确的方法，将策略表示为可人类可读的代码。通过阅读代码可以直接诊断策略的性能问题，这使得该方法成为解释性人工智能（AI）研究中的一种有价值技术。

**1.2.5 训练具身智能体执行复杂任务

最后，本研究的目标是将开发的技术应用于与具身智能体相关的问题，例如机器人技术。在第3章、第5章和第6章中，解决了机器人导航、自动驾驶和虚拟世界Minecraft[208]中的任务执行挑战。这些挑战的关键元素是导航和空间推理。导航是一个现实世界中的问题，传统上通过专家设计的系统解决，但可以通过利用数据驱动的学习来提高效率。例如，车道变换和与其他车辆的合作是自动驾驶车辆需要复杂规划的任务。该问题特别困难，因为人类的合作行为难以建模，原因是复合因素和细微线索的存在，并且不总是有确定的策略可遵循。从现实世界数据中学习合作行为有助于优化这些任务。

1.3 主要贡献

本论文的贡献总结如下：

开发了一个名为碰撞避免长期值迭代网络（CALVIN）的可微规划器，通过执行可微值迭代来学习在未知3D环境中的导航。状态转换和奖励模型通过专家示范学习，类似于值迭代网络（VIN）。然而，VIN在惩罚导致与障碍物和墙体碰撞的无效动作时存在问题，导致值估计不准确。CALVIN通过学习动作允准来约束智能体的转换和奖励，解决了这一问题。CALVIN能够在新颖的2D和3D环境中导航，并显著优于其他基于VIN的可学习规划器。该研究已在IEEE/CVF计算机视觉与模式识别会议（CVPR）2022年发表[97]。详细内容见第3章。
基于对选项框架和前向-后向算法[14]的分析，开发了算法来学习时间一致的选项和关联的子策略，以解决需要长期记忆的POMDP任务。提出并研究了两种无监督选项发现的学习目标：通过期望最大化的邻近策略优化（PPOEM）和顺序选项优势传播（SOAP）。PPOEM应用前向-后向算法[14]来优化选项增强策略的预期回报。然而，结果表明，这种学习方法在没有未来轨迹知识的情况下对于学习因果策略是不稳定的，因为选项分配针对整个周期进行了优化。作为一种替代方法，SOAP评估策略梯度以获得最优的选项分配。它扩展了广义优势估计（GAE）的概念，通过时间传播选项策略梯度来传播选项优势。这种方法使选项策略仅依赖于智能体的历史。与竞争基准相比，SOAP表现出最强的鲁棒性，正确发现了POMDP走廊环境的选项，并在Atari[16]和MuJoCo[222]等标准基准上表现优异。该论文可在arXiv上获得[98]。详细内容见第4章。
提出了LangProp，一个用于迭代优化LLM生成代码的框架。LangProp自动评估代码在输入输出对数据集上的性能，捕捉任何异常，并将结果反馈给LLM，使其能够迭代改进生成的代码。LangProp训练模块可用于监督学习和强化学习设置中。LangProp成功解决了数独和CartPole问题，并生成了与人类专家系统在CARLA驾驶基准[48]上表现相当或更优的驾驶代码。LangProp能够生成可解释且透明的策略，可以以数据驱动的方式进行验证和改进。该研究已被2024年大型语言模型智能体国际学习表征会议（ICLR）工作坊接收[100]。此工作是在Wayve Technologies实习期间完成的。详细内容见第5章。
开发了Voggite，一个在Minecraft开放虚拟世界中执行任务的具身智能体。Voggite使用OpenAI视频预训练（VPT）[12]作为其骨干，这是一个基于Transformer的智能体，预训练于标记了监督逆动力学模型（IDM）的在线视频上。VPT策略接受过去128帧的观测，相当于6.4秒的历史记录。尽管VPT智能体对许多反应性任务有效，但在任务执行的不同阶段区分任务时表现不佳。Voggite通过将任务分为不同阶段来解决此问题。Voggite在NeurIPS 2022年MineRL BASALT人类反馈微调竞赛中获得63支队伍中的第3名。在比赛中，智能体的任务是在Minecraft中寻找洞穴、建造瀑布、农场和建筑。合著的比赛回顾文章可在arXiv上获得[136]。详细内容见第6章。

未纳入本论文的工作：“你是你所吃的？喂给基础模型一个具有区域多样性食物数据集的世界菜肴”[132]。

成为VIP会员查看完整内容

相关内容

牛津大学 (University of Oxford)

关注 31

牛津大学是一所英国研究型大学，也是罗素大学集团、英国“G5超级精英大学”，欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人，包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月，泰晤士高等教育发布了2016-2017年度世界大学排名，其中牛津大学排名第一。

【剑桥大学博士论文】使用检索方法增强多模态问答系统

专知会员服务

37+阅读 · 2024年11月8日

空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

专知会员服务

55+阅读 · 2024年10月23日

【博士论文】视觉Transformer模型，136页pdf

专知会员服务

47+阅读 · 2024年5月20日

【博士论文】元学习算法与应用，195页pdf

专知会员服务

56+阅读 · 2024年3月10日