空间智能如何？牛津大学博士论文《深度具身智能体的空间推理与规划》230页pdf

人类能够通过规划、推理和预测行动结果，执行具有长期目标的复杂任务。为了让具身智能体（如机器人）实现类似的能力，它们必须获得可以迁移到新情境中的环境知识，并在有限的试错预算下学习。基于学习的方法，如深度强化学习，可以从数据中发现并利用应用领域的内在规律和特征，并不断提高其性能，但这通常需要大量的训练数据。本论文探讨了用于空间推理与规划任务的数据驱动技术的发展，重点在于提高学习效率、可解释性以及在新场景中的可迁移性。

本论文的主要贡献包括四个方面：

CALVIN：一种微分规划器，能够学习可解释的世界模型用于长期规划。CALVIN成功地在部分可观测的三维环境中（如迷宫和室内房间）导航，通过从专家示范中学习奖励（目标和障碍）以及状态转换（机器人动力学）。
SOAP：一种强化学习算法，用于无监督地发现长远任务的宏动作（选项）。选项将任务划分为子任务，并实现子任务的稳定执行。SOAP在基于历史条件的走廊任务以及经典基准（如Atari游戏）中表现出稳健的性能。
LangProp：一个使用大型语言模型（LLM）进行代码优化的框架，通过将代码视为可学习的策略，解决具身智能体问题。该框架在CARLA自动驾驶基准中成功生成了具有可解释性的代码，其性能与人类专家编写的代码相当甚至更优。
Voggite：一种具有视觉到动作的Transformer后台的具身智能体，它解决了Minecraft中的复杂任务。在MineRL BASALT竞赛中，Voggite通过识别动作触发点，将任务分割成多个阶段，获得了第三名。这些进展为基于学习的方法在复杂的空间推理与规划挑战中的应用提供了新的途径。关键词：机器学习、神经网络、深度强化学习、模仿学习、层次化强化学习、策略优化、机器人技术、自动驾驶、具身智能体、选项发现、技能学习、导航、规划、计算机视觉、大型语言模型、多模态基础模型。1.1 动机人类具有在新环境中进行规划、推理和预测行动结果的能力，这是执行具有长期目标的复杂任务的显著能力。无论我们遇到的是新游戏、新运动还是新地点，尽管我们从未有过类似的具体经历，但我们仍然能够通过从先前的经验中推断出策略，利用可迁移的知识和技能。通过现代规划算法，如果环境动态（尤其是状态转换和奖励动态）是完全已知的，状态和动作是可枚举的，并且计算资源是无限的，那么找到接近最优的规划解决方案是可能的。然而，现实中这三个假设通常都不成立。智能体通常只能访问环境的局部或部分观测结果，必须根据这些结果来估计环境的状态和动态。状态和动作通常是连续的而非离散的，因此需要一个估计器将连续输入映射为有意义的表示，能够泛化到新输入。最后，由于计算资源有限，状态和动作的枚举通常是不可行的，因此需要一种高效的策略，在有限的计算资源和智能体生命周期内探索状态-动作空间。许多涉及战略决策的现实问题要求智能体学习到可以应用于新场景的环境知识，并在有限的试错预算下学习。设计一个能像人类一样在开放领域中达到同样水平的性能和效率的算法仍是一个未解的问题。例如，自动驾驶[251]仍然是一个正在进行的、未解决的研究领域，因为在多智能体问题环境中，动态环境的复杂性极高，同时存在信息不完美和传感器输入噪声的挑战。这与工业机器人形成鲜明对比，工业机器人已在可控、可预测且在很多情况下是完全已知的环境中有效运行了几十年。加上任务的重复性，这使得人类可以硬编码系统来处理常见的预期场景。马尔可夫决策过程（MDP）和强化学习（RL）是强大的框架，它们将决策过程形式化为一个可以通过数学定义的目标进行学习的问题[213]。这些框架捕捉了与环境交互的序列性和时间演化特性。神经网络的进展及其与RL的成功整合[138, 139, 201]改变了计算机视觉和机器人技术领域，催生了基于学习的方法来解决传统上通过人类手工实现的专家系统解决的问题。基于学习的方法有两个主要优势。首先，随着数据的增加，基于学习的算法可以不断改进和适应应用领域，而手动实现的方法是固定的，无法适应变化。其次，基于学习的方法能够自动发现应用领域的内在规律和特征，并利用它们来提高性能，而无需对这些策略进行硬编码。虽然RL在解决复杂战略问题方面非常有效[10, 12, 138, 202, 229]，但样本效率和可泛化性仍然是需要解决的挑战。当前最先进的RL算法在已训练的任务或可以通过反应策略解决的任务中表现出色，但并没有显式学习易于迁移的技能[145, 162, 163, 174, 198]。与可以轻松获取样本的游戏或模拟任务不同，在现实世界中收集样本可能是昂贵的，甚至是不安全的。人类能够通过学习可迁移的知识和技能来绕过这些问题，从而通过更少的试错提高成功的几率，并避免灾难性失败（如从悬崖上掉下或被车撞）。本研究旨在提出获取技能的方法，使智能体能够更有效、更高效地执行任务。

1.2 研究目标本研究致力于解决涉及空间推理、规划和决策任务的挑战，以数据驱动的方式，同时提高学习的效率、可解释性和可迁移性。本研究目标可以进一步细分为五个具体的研究目标，详细描述如下。1.2.1 学习一个具有可泛化性的规划器本研究的核心目标之一是开发能够泛化到新场景的可学习规划器。反应性马尔可夫策略与具备计划的策略之间的区别在于，反应性策略根据当前状态或局部观测结果作出即时决策，而规划则涉及对给定情境的长期分析，以提出空间和时间上一致的解决方案。两种方法的区别类似于[106]中提出的系统1（快速、无意识、自动的决策）和系统2（缓慢、有意识、严格的决策）思维。两种决策过程都很重要，因为反应性策略对于实时决策非常有用，而规划对于确保所作决策的一致性和连贯性非常重要。例如，基于蒙特卡罗树搜索（MCTS）的算法[201, 202]在学习反应策略和长期规划之间交替进行；通过模拟蒙特卡罗树的回合[40]并反向传播返回值估计，反应性策略根据回合结果进行更新。尽管像围棋和模拟环境的动态是已知的，但对于许多现实世界问题却并非如此。基于模型的RL方法[75, 79, 190]通过学习环境模型来进行模拟回合，解决了这个问题。第3章探讨了相关的替代途径，学习一个可微分规划器，以解决在新环境中无法通过反应策略有效解决的导航任务。第5章提出了一种新的学习算法决策的范式，通过将代码视为可学习的策略，利用大型语言模型（LLMs）从数据中进行学习。通过使算法可学习，RL智能体之前难以掌握的高级和长期计划现在可以通过模仿学习（IL）和RL技术学习。此外，第4章和第6章展示了如何使用选项[166, 214]的时间抽象来帮助智能体做出明智的长期决策，这将在1.2.2节和1.2.3节中讨论。

1.2.2 发现可重复使用的技能技能学习是高效探索、决策和任务解决的另一个重要组成部分。通过技能，可以构思一个高层次的计划，将低层次的技能策略结合起来并协调执行。这些技能专门解决任务的子集，因此智能体可以通过组合这些技能，从更少的训练样本中学习解决复杂的新任务。在第4章中探讨了这些技能如何通过无监督方式学习，使用来自环境的奖励作为学习信号。智能体轨迹被分割为与技能相关的子策略选项[166, 214]。

1.2.3 使用带有记忆增强的策略解决POMDP环境与1.2.2节相关，选项不仅可以用来学习技能，还可以用于学习时间一致的行为。它作为一个离散的潜变量携带前进的记忆，使得智能体能够在部分可观测马尔可夫决策过程（POMDP）环境中执行任务，在这种环境中，仅通过当前的观测结果无法确定环境的底层状态。通过维护智能体轨迹的历史，可以更好地确定真实的环境状态，因为过去的观测结果通常与未来的观测结果通过隐藏变量相关联。第4章检验了不同训练目标的算法发现选项的有效性和鲁棒性，展示了所提出的解决方案相对于经典的递归策略和Option-Critic策略[9, 111]的优势。在第6章中，技能和轨迹分割的概念被用于使智能体在任务完成的不同阶段改变其策略。将复杂任务分解为子任务并按阶段执行，使智能体能够执行与高层计划一致的时间一致行为。

1.2.4 解释专家和智能体的行为本研究的另一个主题是解释所学习的策略。上面讨论的技能学习是确保更好解释性的一种方法，因为选项以语义上可解释的方式对智能体轨迹进行分割。第3章探讨了可解释性的另一种方法：一个可微分的规划器通过专家演示的机器人导航轨迹学习目标、障碍物和运动动力学。它还在决策过程中计算奖励图和价值图，类似于逆强化学习（IRL）[6, 148, 260, 261]。在第5章中，提出了一种将策略明确表示为人类可读代码的更显式方法。策略性能问题可以直接通过阅读代码进行诊断，使这种方法成为解释性人工智能（AI）研究中的有价值技术。

1.2.5 训练具身智能体执行复杂任务最后，本研究的目标是将所开发的技术应用于具身智能体相关的问题，例如机器人技术。在第3章、第5章和第6章中，分别解决了机器人导航、自动驾驶以及在虚拟世界Minecraft[208]中的任务执行的挑战。这些挑战都有导航和空间推理作为完成任务的关键要素。导航是一个传统上通过专家设计的系统解决的现实问题，但可以通过利用数据驱动的学习来提高效率。例如，车道变换和与其他车辆合作是自动驾驶车辆的任务，要求复杂的规划。由于人类合作行为难以建模，特别是在存在多重因素和微妙线索的情况下，这个问题变得尤为复杂，而且并不总是有确定的策略可遵循。从现实世界数据中学习合作行为可以有助于优化这些任务。

1.3 主要贡献本论文的贡献可以总结如下：

开发了一个名为CALVIN的可微分规划器（Collision Avoidance Long-term Value Iteration Network），通过执行可微分的值迭代来学习在未知的3D环境中导航。状态转换和奖励模型是从专家演示中学习的，类似于值迭代网络（VIN）。然而，VIN难以惩罚导致与障碍物和墙体碰撞的无效动作，导致值估计不准确。CALVIN通过学习动作承受度来约束智能体的转换和奖励，从而解决了这个问题。CALVIN能够在新颖的2D和3D环境中导航，并显著优于其他基于VIN的可学习规划器。该工作已在2022年IEEE/CVF计算机视觉与模式识别会议（CVPR）上发表[97]。详细内容见第3章。
基于对选项框架和前向-后向算法[14]的分析，开发了算法来学习时间一致的选项及其相关的子策略，以解决需要长期记忆的POMDP任务。提出并研究了两种无监督选项发现的学习目标：通过期望最大化的近端策略优化（PPOEM）和顺序选项优势传播（SOAP）。PPOEM应用前向-后向算法[14]优化选项增强策略的期望回报。然而，研究表明，在没有未来轨迹知识的情况下，这种学习方法在学习因果策略时是不稳定的，因为选项分配是针对整个回合进行优化的。作为一种替代方法，SOAP评估了最优选项分配的策略梯度。它扩展了广义优势估计（GAE）的概念，通过时间传播选项的优势，相当于对选项策略梯度执行时间反向传播。使用这种方法，选项策略仅依赖于智能体的历史记录。与竞争基准相比，SOAP表现出最强的鲁棒性，正确发现了POMDP走廊环境中的选项，以及标准基准中的Atari[16]和MuJoCo[222]。该论文已在arXiv上发表[98]。详情见第4章。
提出了LangProp框架，用于迭代优化由LLMs生成的代码。LangProp自动评估代码在输入-输出数据集上的表现，捕获任何异常，并将结果反馈给LLM训练循环，使LLM能够迭代改进其生成的代码。LangProp训练模块可以在监督学习和强化学习设置中使用。LangProp成功解决了Sudoku和CartPole问题，并生成了驾驶代码，其性能与CARLA驾驶基准[48]中的人类实现的专家系统相当或更优。LangProp能够生成可解释且透明的策略，可以通过度量和数据驱动的方式进行验证和改进。该工作已在2024年国际学习表征会议（ICLR）LLM智能体研讨会上接受[100]。该工作是在Wayve Technologies实习期间进行的。详情见第5章。
开发了Voggite，一个在Minecraft开放式虚拟世界中执行任务的具身智能体。Voggite以OpenAI的视频预训练（VPT）[12]为主干，一个基于Transformer的智能体，经过在线视频的监督逆动力学模型（IDM）标注进行预训练。VPT策略接受128帧的过去观测结果，相当于6.4秒的历史。虽然VPT智能体在许多反应性任务中表现有效，但在任务执行的不同阶段上难以区分。Voggite通过将任务分为不同阶段解决了这一问题。Voggite在2022年NeurIPS MineRL BASALT竞赛中的63支队伍中获得了第三名。竞赛要求智能体在Minecraft中寻找洞穴并建造瀑布、农场和建筑物。合作撰写的比赛回顾文章已在arXiv上发布[136]。详情见第6章。未包含在本论文中的工作：“你吃什么就是什么？给基础模型喂食来自全球各地菜肴的区域性多样食品数据集”[132]。