数据驱动的机器人学在过去十年中是一种非常有效的范式。今天,我们已经能够自主完成一些灵巧的任务,例如折叠衣物、在狭窄的走廊中避免碰撞并导航,以及使用车载传感器控制复杂的动态系统,例如四足机器人在挑战性地形上行走。然而,这些方法通常存在一些基本的局限性,阻碍了它们在开放世界环境中的部署。这些局限性可能是因为它们对环境结构做出了过强的假设、需要大量的机器人数据收集,或者未能考虑对环境的语义理解。由于这些限制,数据驱动的机器人方法仍然局限于简单的受限场景,且对大多数从业者和潜在应用不具备可行性。这些方法仍然需要为每个不同的机器人,在特定环境中,手工设计以解决特定任务。 本论文提出了对未来智能机器人的另一种愿景,即我们可以拥有通用的机器学习模型,这些模型可以直接控制任何机器人,在具有挑战性的开放世界环境中执行合理的行为。受到语言和视觉基础模型兴起的启发,我们提出了一种训练机器人基础模型(RFM)的方案,该模型通过从不同环境和形态中收集的大量数据进行训练,可以仅依赖自我中心视觉来控制各种不同的移动机器人。我们还展示了这种RFM如何作为构建强大机器人系统的骨干,这些系统可以探索密集的森林、与人类互动,或利用诸如卫星图像或自然语言等辅助信息源。 最后,我们提出了一种将具有物理世界知识的RFM与具有图像级语义理解和基于文本推理的互联网基础模型(语言和视觉模型)相结合的新规划框架。这使得机器人系统能够利用互联网基础模型的优势,同时在现实世界的条件下执行操作。我们希望这能够朝着通用机器人系统迈出一步,这些系统可以部署在各种机器人上,利用预训练模型的互联网规模知识,并作为各种移动机器人应用的基础。
引言
当人类访问一个新城市时,我们毫不费力地在街道间导航、询问地标的方向,并形成对街区的心理地图。我们借助之前的经验和常识来识别模式并填补空白,比如“城市街区通常是矩形的”和“出口标志指向门”。然而,大多数现有的机器人系统在未知的、非结构化的开放世界环境中缺乏这样的意识和推理能力——它们要么(i)过度建模(几何结构),在可扩展性和适应性方面存在局限性,要么(ii)建模过少,试图学习一切,但在效率、泛化能力和鲁棒性方面受到限制。近年来,人工智能和大规模深度学习的进展表明,这种推理确实存在于建模文本和视觉信息的神经网络中。那么,为什么我们还没有看到能够高效探索城市规模环境、利用常识推理并与人类在现实环境中共存的自主机器人呢?
构建这种通用机器人的关键挑战在于缺乏能够在任意家庭、街道或森林中建模多样化机器人行为的算法和系统。这些行为可能非常复杂,无法通过程序化的方法进行重建或模拟。因此,无论是依赖于密集映射和几何的传统方法,还是在模拟中训练的现代端到端学习方法,都无法实现这一目标。我们认为,答案在于构建能够从共享的现实世界经验中学习的机器人系统,即从全球范围内不同传感器和能力、不同任务的机器人实际部署中收集的数据中学习。本论文重点讨论如何利用“跨形态”机器人学习来应对上述挑战,并将其与严谨的规划和搜索基础相结合,最终目标是构建能够在复杂环境中实际部署的鲁棒系统。这一范式能够实现广泛的泛化,使全新的机器人能够在开放环境中部署,并以数据高效的方式适应各种下游任务,类似于大规模预训练模型在计算机视觉和语言建模中的成功。
在这个范式下开发机器人系统时,重要的是要考虑两个基本问题:
本论文提出了构建机器人基础模型的方案,使自主机器人能够从自己的经验以及互联网的其他信息来源中学习,并展示了如何将这些机器人特定的模型与在互联网规模数据上训练的基础模型相结合。我们主要在自主导航的背景下研究这一问题,这是智能机器人系统在实验室之外、真正应用于现实世界的一个基本组成部分。我们的关键见解是,结合跨形态数据的大规模机器人学习和规划,可以实现可部署的通用机器人系统。本论文分为三个部分,分别对应于在数据驱动框架下设置视觉导航问题,设计和训练用于视觉导航的机器人基础模型,最后将这种机器人特定模型与互联网的文本和视觉基础模型相结合。
为了完整性和消除歧义,我们在本论文中对机器人基础模型作如下定义: 定义1(机器人基础模型):一种机器学习模型,在最少的外部监督下训练,可以:
组织结构本论文分为三个部分,旨在回答上述问题。我们做出了以下贡献: I. 从数据中学习远程导航:我们将视觉导航问题形式化为一种无地图的数据驱动范式。我们认为,在挑战性的现实环境中实现鲁棒导航既需要从机器人过去的经验中学习技能,也需要一个用于规划和搜索的明确记忆。我们还评估了离线强化学习和行为克隆在训练现实世界技能方面的适用性。
在第2章中,我们为一种全新的基于学习的导航系统奠定了基础,该系统可以完全从离线数据中学习,并通过规划执行远程导航。这项工作之前发表在Shah等人的[241]中。
在第3章中,我们基于我们的系统,使其能够通过使用一个学习的潜在变量模型训练一个探索先验,从而实现自主探索。这项工作之前发表在Shah等人的[238]中。
在第4章中,我们扩展了这个系统,使其能够利用地理辅助信息作为规划启发式,来实现公里级导航。这项工作之前发表在Shah等人的[232]中。
在第5章中,我们研究了离线强化学习在从数据中训练机器人技能的可行性,并展示了一个能够在现实世界中优化用户特定奖励函数的导航系统。这项工作之前发表在Shah等人的[237]中。
II. 跨形态机器人基础模型:我们提出了跨形态学习作为一种在多个环境和机器人之间训练目标导向导航策略的方法。我们探索了这种模型的设计空间、预训练范式以及可能的下游应用适应方式。
在第6章中,我们探讨了如何将经验学习范式扩展到通过仔细的数据管理和架构设计,在不同的机器人形态间学习导航策略。这项工作之前发表在Shah等人的[234]中。
在第7章中,我们设计了第一个基于跨形态学习的机器人基础模型。ViNT模型旨在将预训练模型的成功带入机器人领域,作为通过提示调优和全模型微调训练下游策略的强大骨干。这项工作之前发表在Shah等人的[242]中。
在第8章中,我们提出了一种用于大规模跨形态机器人学习的替代架构,该架构使用目标条件扩散策略来学习复杂的多模态行为。这项工作之前发表在Sridhar等人的[254]中。
III. 结合机器人和互联网基础模型:我们提出了一种新颖的规划框架,将大型语言模型的基于文本的推理能力、视觉模型的语义理解和视觉对位能力以及机器人基础模型的物理对位能力相结合,以解决现实世界的指令执行任务。我们还将这一理念与第4章中的启发式规划框架相结合,提出了一种在规划过程中结合语言模型建议的新方法。
在第9章中,我们设计了第一个现实世界的指令执行机器人系统,该系统可以在新环境中零样本部署,无需额外训练。LM-Nav结合了强大的机器人基础模型(ViNG, GNM)和互联网基础模型(GPT-3, CLIP),形成了一个功能强大的多功能机器人导航系统。这项工作之前发表在Shah等人的[235]中。
在第10章中,我们研究了如何利用大型语言模型中存储的内在知识作为解决远程推理任务的规划启发式。这项工作之前发表在Shah等人的[236]中。
最后,我们讨论了当前方法和在开放世界环境中开发真正自主机器人的未来发展方向。