数据驱动的机器人技术在过去十年中已成为一种非常有效的范式。如今,我们可以自主地执行复杂的任务,如折叠衣物、在狭窄的走廊中避开障碍物导航,以及使用机载观测控制四足机器人在复杂地形上行走等。然而,这些方法往往存在一些基本的限制,使其难以在开放世界环境中部署。原因可能是它们对环境结构做出了过于强烈的假设,或需要大量的机器人数据收集,或者无法对周围环境进行语义理解。由于这些限制,数据驱动的机器人技术仍然局限于简单的受限环境,无法为大多数从业者和潜在应用所用。这些系统仍需为每个机器人、特定环境和具体任务进行手工设计。 本论文提出了一个关于未来智能机器人的替代愿景,即我们可以开发通用的机器学习模型,这些模型可以直接控制任何机器人,在挑战性的开放世界环境中执行合理的行为。受到语言和视觉基础模型兴起的启发,我们提出了一种训练机器人基础模型(Robot Foundation Models, RFMs)的方法,这些模型从不同环境和实体收集的大量数据中训练而成,能够仅依靠自我中心视觉控制各种移动机器人。我们还展示了如何将这种RFM作为构建强大机器人系统的基础,这些系统可以探索茂密的森林、与人类互动,或利用卫星图像或自然语言等辅助信息源。 最后,我们提出了一种结合RFM和互联网基础模型的新规划框架。RFM具备对物理世界的知识,而互联网基础模型则具备图像级语义理解和基于文本的推理能力。通过这种框架,机器人系统能够利用互联网基础模型的优势,同时在现实世界中行动。我们希望这能成为通用机器人系统迈出的关键一步,这类系统可以部署在各种机器人上,利用经过预训练的互联网模型中的大规模知识,成为多样化移动机器人应用的基础。
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-166.html
当人类访问一个新城市时,我们能够轻松地在街道上导航,询问地标方向,并在脑海中形成邻里环境的心理地图。我们利用以前的经验和常识来识别模式并填补空白,例如“城市街区通常是矩形的”和“出口标志指向门口”。然而,当今大多数机器人系统在未见过的、无结构的自然环境中缺乏这种意识和推理能力——它们要么(i)建模过多(几何),在可扩展性和适应性方面存在局限性,要么(ii)建模过少,试图学习一切,但在效率、泛化性和鲁棒性方面受到限制。人工智能和大规模深度学习的最新进展表明,这种推理确实存在于模型文本和视觉信息的神经网络中。那么,为什么我们还没有看到能够高效探索城市规模环境、运用常识推理并与人类共存的自主机器人呢? 构建这种通用机器人面临的关键挑战在于缺乏能够在任意家庭、街道或森林中建模多样化机器人行为的算法和系统。这些行为可能极其复杂,无法通过程序生成或模拟重建。因此,依赖于密集映射和几何的经典方法,以及在仿真中训练的现代端到端学习方法,都不足以实现这一目标。我们认为,答案在于构建能够从共享的真实世界经验中学习的机器人系统,即从世界各地不同传感器和能力的机器人执行不同任务的实际部署中收集的数据。本论文的重点是利用“跨实体”机器人学习的力量来应对上述挑战,并将其与规划和搜索的严格基础联系起来,最终目标是构建能够在复杂环境中真实世界部署的鲁棒系统。这种范式可以实现广泛的泛化,使全新的机器人能够在自然环境中部署,并以数据高效的方式适应各种下游任务,类似于大规模预训练模型在计算机视觉和语言建模中的成功。 在这一范式下开发机器人系统时,必须考虑两个基本问题: 1. 我们如何从在挑战性环境中部署的机器人的离线数据集中学习鲁棒行为? 1. 我们如何使这些行为在新的挑战性环境、任务和机器人实体中进行泛化,并构建一个机器人基础模型? 1. 我们如何将这样的模型与互联网基础模型结合,以利用互联网规模的知识和高级规划能力?
本论文提出了一种构建机器人基础模型的方案,使自主机器人能够从其经验以及互联网的其他信息源中学习,并展示了这些特定于机器人的模型如何与在互联网规模数据上训练的基础模型结合使用。我们主要在自主导航的背景下研究这一点,这是智能机器人系统在实验室之外、真正自然环境中操作的基本组成部分。我们的关键见解是,结合跨实体数据的大规模机器人学习和规划,可以实现可部署的通用机器人。本论文分为三个部分,分别对应于在数据驱动框架中建立视觉导航问题、设计和训练用于视觉导航的机器人基础模型,最后将这种特定于机器人的模型与互联网的文本和视觉基础模型相结合。 为了完整性和消除歧义,我们在本论文中将机器人基础模型定义如下: 定义1(机器人基础模型):一种机器学习模型,在最小的外部监督下训练,可以: * 在完全不同的(有用的)设置中零样本部署,例如不同的传感器、机器人、环境等。 * 适应所选择的下游任务,例如不同的目标、偏好/奖励、目标规格的模态、行为等。