《基础模型在现实世界机器人应用》综述

近期在基础模型上的发展，如大型语言模型（LLMs）和视觉-语言模型（VLMs），它们基于大量数据训练，促进了跨不同任务和模态的灵活应用。它们的影响覆盖了多个领域，包括健康护理、教育和机器人技术。本文提供了基础模型在现实世界机器人应用中的概览，主要强调在现有机器人系统中替换特定组件。总结包括了基础模型中输入输出关系的视角，以及它们在机器人技术领域内的感知、运动规划和控制中的作用。本文最后讨论了实际机器人应用面临的未来挑战和含义。

近期在人工智能领域的进步显著扩展了机器人的操作能力，使它们能够承担多种多样的活动【1-5】。虽然最初机器人的部署主要限于大规模生产环境【6-11】，但现在工业机器人的适用性已经扩展到小批量和高多样性生产领域，包括室内空间和灾难现场【12-15】。这种扩散不仅仅限于环境多样性的增加；它还扩展到了任务范围的扩大，包括日常活动，如整理【16-18】、洗涤【19,20】、擦拭【21,22】和烹饪【23,24】。机器学习为满足这些机器人系统的需求提供了一种方式。然而，仅仅在特定领域数据上训练每个模型对于多样的机器人、任务和环境来说是不够的。越来越多地需要开发可以使用单一的、预训练的系统或模块应用于各种机体、任务和环境的机器人。解决这一挑战的一个方案是引入基础模型【25】。基础模型是在大量数据上训练的模型，可以通过上下文学习、微调或甚至零样本的方式轻松应用于广泛的下游任务【26,27】。显著的例子包括大型语言模型（LLMs）如GPT【27】和视觉-语言模型（VLMs）如CLIP【28】，其中语言是结合各种类型模态的粘合剂。这些基础模型的影响是显著的，有几篇综述文章讨论了它们在不同领域的影响【29-32】。Wang等人【29】和Zeng等人【30】进行了关于大型语言模型在机器人学中应用的综述，而Firoozi等人【31】和Hu等人【32】进行了更广泛的综述，关注于基础模型在机器人学中的应用。在本文中，我们总结了基础模型对现实世界机器人的适用性，旨在加速它们在实际机器人应用中的采用。与其他综述文章相比，我们提供了如何从基础模型的输入输出关系以及机器人学中的感知、运动规划和控制的角度，用基础模型替换现有机器人系统中的特定组件的总结。本研究的结构如图1所示。在第2节中，我们将描述基础模型本身。特别地，我们将根据它们使用的模态类型，例如视觉【33,34】、语言【35-41】等，以及它们可以应用的下游任务类型进行分类。在第3节中，我们将基于当前应用【2,3,42】描述如何将基础模型应用于机器人学。一般来说，机器人需要配备感知模块、规划模块和控制模块。从这个角度，我们分类了可以将基础模型应用于现实世界机器人学的方式，包括低级感知、高级感知、高级规划和低级规划。此外，我们还将解释在训练直接连接低级感知和低级规划的映射时，对机器人学的数据增强。在第4节中，我们将描述包括机器人实体在内的基础模型，即机器人基础模型，包括关于如何就模型架构、数据集和学习目标制作这些机器人基础模型的讨论。在第5节中，我们将描述使用基础模型的机器人、任务和环境。我们将任务分类为导航、操纵、带有操纵的导航、运动和交流。最后，我们将讨论未来的挑战并提出我们的结论。

“基础模型”一词最初在【25】中被引入。在这项综述中，我们将简单描述在机器人应用中使用的基础模型的类型，以及下游任务，将关于基础模型本身的讨论推迟到【25】。在2012年，深度学习因ILSVRC-2012比赛的获胜模型而获得机器学习社区的主流关注【43】。2017年，由【44】介绍的Transformer模型，促进了自然语言处理（NLP）【45】和计算机视觉【46】领域的重大进步。到2021年，一个经过大量数据训练、能够轻松应用于广泛下游任务的模型被称为“基础模型”【25】。基础模型的特点主要有三个：

上下文学习 * 规模定律 * 同质化

上下文学习使得仅用几个例子就能完成新任务成为可能，无需重新训练或微调。规模定律允许随着数据、计算资源和模型大小的增加而持续提升性能。同质化允许某些基础模型架构以统一的方式处理多种模态。在这一章中，我们从在机器人学中的适用性的角度对基础模型进行分类。机器人利用基础模型的最关键标准是选择使用哪些模态。本章从语言、视觉、音频、3D表示和各种其他模态的角度讨论了基础模型的类型和它们可以执行的下游任务。在利用每种模态的背景下，我们进一步从网络输入和输出的角度对基础模型进行分类。概览显示在图2中。请注意，我们的目标不是在这里全面覆盖基础模型；我们的重点仍然在于解决模态差异和基础模型的分类。

通常，机器人的行为由感知、规划和控制组成。在本研究中，我们将感知分为两个类别：低级感知和高级感知。同时，我们将规划和控制分别称为高级规划和低级规划。加上对学习这些组成部分的数据增强，我们将机器人对基础模型的利用分为以下五个类别。 * 低级感知 * 高级感知 * 高级规划 * 低级规划 * 数据增强

这些类别之间的关系如图3所示。用于低级感知的基础模型包括在图像或3D表示中的语义分割和边界框提取，以及在各种模态中的特征提取。用于高级感知的基础模型涉及将从低级感知获得的结果转换和利用成如地图、奖励和运动约束等形式。用于高级规划的基础模型执行更高级别的抽象任务规划，不包括直接控制。用于低级规划的基础模型执行较低级别的运动控制，包括关节和末端执行器控制。用于数据增强的基础模型在执行连接低级感知和低级规划的学习时，通过数据增强增强鲁棒性。在实践中，通过组合这五种利用方法创建了各种应用。主要分为四种类型，如图4所示。 (i) 进行低级感知，然后用高级规划规划行为。 (ii) 通过低级感知和高级感知提取奖励和运动约束，并用于强化学习和轨迹优化。 (iii) 通过低级感知和高级感知生成地图、场景图等，并将它们作为任务规划的基础。 (iv) 使用数据增强，稳健地进行直接关联低级感知的特征提取和控制输入的端到端学习。值得注意的是，也有一些研究方法不适用于这一框架。从这些角度出发，我们选取了几篇具有代表性的论文并在表1中进行了总结。