大型语言模型与智能机器人集成的综述

近年来，大型语言模型（LLM）的集成彻底改变了机器人技术领域，使机器人能够以类似人类的熟练程度进行交流、理解和推理。本文探讨了LLM对机器人学的多方面影响，讨论了利用这些模型的关键挑战和机遇。通过对LLM在机器人核心元素——通信、感知、规划和控制中的应用进行分类和分析，我们旨在为寻求将LLM集成到其机器人系统中的研究者提供可行的见解。

我们的研究主要集中在GPT-3.5之后开发的LLM上，主要是基于文本的模式，同时也考虑了用于感知和控制的多模态方法。我们提供全面的指导原则和示例，以便初学者能够轻松接触基于LLM的机器人解决方案。通过教程级别的示例和结构化的提示构建，我们展示了如何将LLM引导的增强功能无缝集成到机器人应用中。本综述为研究人员在不断发展的LLM驱动的机器人技术领域中的导航提供了路线图，提供了全面的概述和实用的指导，以利用语言模型在机器人开发中的潜力。

在过去的十年中，我们见证了机器人学领域在应用语言模型（LMs）方面取得了显著的进展。这些进展不仅包括类似人类的交流能力，还包括机器人的理解和推理能力，从而显著提高了它们在从家庭杂务到工业操作等各种任务中的效率。在早期工作中，这些成功源于统计模型分析和预测语言表达中的词汇。这些模型使机器人能够解释人类命令，理解上下文，表征世界，并与人类互动，尽管理解的深度有限。随后，采用了具有自我注意机制的Transformer架构，尤其是像BERT这样的预训练语言模型，提高了捕捉复杂模式的能力，同时为特定任务进行微调。然而，这些模型的性能通常取决于有限的数据集，限制了它们把握更深层次上下文理解和在不同场景中泛化的能力。

随着大型语言模型（LLMs）的发展，基于语言的机器人引入了各个领域的创新变化，如信息检索、推理任务、环境适应、持续学习和改进等。这些LLMs，以其庞大的参数规模和在互联网规模数据集上的训练为特征，为下游任务提供了零次和少次学习能力，而不需要额外的参数更新。这些显著的进步来自于文献中定义为“在小模型中不存在但在大模型中出现的能力”的突现能力。这些能力显著增强了机器人在理解、推断和响应开放式指令方面的性能，利用了广泛的常识知识。此外，称为提示工程的提示创建技术使LLMs能够通过自由形式的语言描述或互动对话，整合更丰富的上下文信息，促进了泛化推理。引入上下文学习能力使LLMs能够根据提供的指示或示例中的提示生成预期格式的输出，如JSON、YAML或PDDL，甚至代码。最近的LLMs，如GPT-4，通过与外部机器人工具（如规划器或翻译器）的整合，进一步扩展了能力。

尽管LLMs具有多样的能力，但它们的利用面临几个挑战。首先，LLMs经常生成不准确或意外的响应。由于机器人执行的安全性是最重要的部署因素，基于LLM的机器人应用需要过滤和纠正机制以确保安全。其次，如上下文学习等突现能力尚不可预测且不一致。即使是对输入文本的轻微更改也可能导致响应的不可预测变化。第三，精心设计的提示使机器人能够有效地利用LLMs的能力，但缺乏支持机器人系统关键组件的系统化指导，阻碍了无缝集成。因此，我们需要研究LLMs在机器人中的逐部件参与，以了解其限制和安全性。当前，各种综述已开始探索LLMs与机器人的交集，主要关注LLM驱动的机器人应用或互动维度。然而，仍然存在在机器人系统的关键元素，包括通信、感知、规划和控制方面提供全面评论和可操作见解的空白。此外，研究者们还在探索广泛的预训练大容量模型领域，称为基础模型，寻求跨模态Transformer模型的泛化能力。然而，这一广阔领域涵盖了广泛的机器人学和多样的方法论，使得新兴研究者错过深入的评论和指导。在本文中，如图1所示，我们旨在分类和分析LLMs如何增强机器人系统的核心元素，以及我们如何指导新兴研究者在每个领域内整合LLMs，以促进智能机器人的发展。我们根据三个关键问题结构化本文： • Q1: LLMs在每个机器人领域中如何被利用？ • Q2: 研究人员如何克服LLMs的集成限制？ • Q3: 在每个领域产生最低功能所需的基本提示结构是什么？

为了回答这些问题，我们专注于在引入GPT-3.5之后开发的LLMs。我们主要考虑基于文本的模式，但也审查了感知和控制领域的多模态。然而，为了进行深入审查，我们将调查限制在LLMs而非基础模型上。此外，我们提供了全面的提示工程指南和示例，旨在使初学者能够访问基于LLM的机器人解决方案。我们的教程级示例展示了如何通过引入四种类型的示例提示——对话提示用于互动定位，指令提示用于场景图生成，计划提示用于少次计划，以及代码生成提示用于奖励生成——增强或替换机器人组件的基本功能。通过提供提示构建的规则和技巧，我们概述了生成预期格式输出的良好设计提示的过程。这些原则确保了机器人应用中有效的LLM引导增强，无需参数调整。

本文的其余部分安排如下。第2节概述了机器人学中LMs和LLMs的历史背景。第3节评审了LLMs赋能机器人通过语言理解和生成进行交流的方式。第4节调查了LLMs如何感知各种传感器模态并推进感知行为。第5节和第6节分别组织了基于LLM的计划和控制研究。在第7节中，我们提供了提示工程的全面指南，作为LLM在机器人中集成的起点。最后，第8节总结了这篇综述。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 54

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

视频生成、理解与流媒体的生成式人工智能和大型语言模型综述

专知会员服务

57+阅读 · 2024年4月27日

大语言模型视角下的智能规划方法综述

专知会员服务

132+阅读 · 2024年4月20日

《基础模型在现实世界机器人应用》综述

专知会员服务

54+阅读 · 2024年2月11日

面向机器人系统的虚实迁移强化学习综述

专知会员服务

41+阅读 · 2024年2月8日