大模型驱动的具身智能: 发展与挑战

摘要大模型驱动的具身智能是涵盖人工智能、机器人学和认知科学的交叉领域, 重点研究如何将大模型的感知、推理和逻辑思维能力与具身智能相结合, 提升现有模仿学习、强化学习、模型预测控制等具身智能框架的数据效率和泛化能力. 近年来, 随着大模型能力的不断提升, 以及具身智能中示教数据、仿真平台、任务集合的不断完善, 大模型和具身智能的结合将成为人工智能的下一个浪潮, 有望成为人工智能迈向实体机器人的重要突破口. 本文围绕大模型驱动的具身智能这一研究领域, 从 3 个方面进行了系统的调研、分析和展望. 首先, 回顾了大模型和具身智能的相关技术背景, 以及具身智能现有的学习框架. 其次, 按照大模型赋能具身智能的方式, 将现有研究分为大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成等 5 类范式. 最后, 总结了大模型驱动的具身智能中存在的挑战, 对可行的技术路线进行展望, 为相关研究人员提供参考, 进一步推动国家人工智能发展战略. 关键词具身智能, 大模型, 环境感知, 任务规划, 基础策略

1 引言具身智能 (embodied AI) 是人工智能、机器人学、认知科学的交叉领域, 主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力[1] . 具身智能可以追溯到 20 世纪 50 年代, 艾伦 · 图灵首次提出具身智能的概念, 探索如何使机器感知和理解世界, 并作出相应的决策和行动 [2, 3] . 随后在 80 年代对符号主义的反思中, 以罗德尼 · 布鲁克斯为代表的研究者逐渐认识到, 智能不应该只在对数据的被动学习中得到, 而应该通过与环境进行主动交互中获取, 应当重点研究如何让机器人主动适应环境 [4] . 近年来, 在高性能算力平台和大规模标注数据的支持下, 深度学习方法通过挖掘数据模式, 在图像识别、语言处理、围棋、蛋白质结构预测等任务中取得了一系列突破性的进展. 然而, 这些非具身智能体缺乏与环境交互学习的经验, 无法直接驱动机器人实体完成特定任务. 相比较而言, 具身智能强调感知 - 运动回路 (perception-action loop), 使用物理实体来感知和建模环境, 根据任务目标和实体能力进行规划和决策, 最后使用实体的运动能力来完成任务. 具身实体对任务的完成结果将作为反馈进一步优化智能体的策略, 从而使智能体的行为能够适应变化的环境, 这一过程与人类的学习和认知过程有很高的相似性. 具身智能在研究中更多体现智能的理念, 在具身实体中融合了视觉、语言、决策等多方面的技术来提升智能体的通用型和泛化性 [5] . 近年来, 以 ChatGPT 为带代表的大语言模型 (large language model, LLM) [6] 技术取得了突破性的进展, 通过在大规模网络对话数据中进行学习, ChatGPT 能够实现包括自动问答、文本分类、自动文摘、机器翻译、聊天对话等各种自然语言理解和自然语言生成任务, 同时具备在少样本和零样本场景下达到了传统监督学习方法的性能, 并具有较强的泛化能力 [7] . 通过先进的思维链 (chain-of-thought, CoT) [8] 等提示技术, 大语言模型的逻辑推理能力获得了大幅提升, 从而有望解决复杂具身智能场景中的任务分解和推理问题. 视觉基础模型 (visual foundation model, VFM) [9] 通过自监督的学习目标可以获得强大的视觉编码器, 能够解决如图像分类、语义分割、场景理解等视觉感知任务. 在具身智能任务中, 强大的视觉编码器能够对视觉传感器获得的周围环境信息进行分析和理解, 从而帮助智能体进行决策. 在此基础上, 视觉 - 语言模型 (visual-language model, VLM) [10] 通过引入预训练视觉编码器和视觉 - 语言模态融合模块, 使得大语言模型能够获取视觉输入, 同时根据语言提示进行视觉问答. 在具身智能中, 引入视觉 - 语言模型能够使智能体根据任务语言指令和环境的视觉观测进行推理和决策, 从而提升智能体对环境的感知和理解能力. 多模态大模型 (large multimodal model) [11, 12] 通过引入视频、音频、肢体语言、面部表情和生理信号等更多模态, 可以分析更丰富的传感器输入并进行信息融合, 同时结合具身智能体中特有的机器人状态、关节动作等模态信息, 帮助解决更复杂的具身智能任务. 大模型通过充分利用大规模数据集中学习到的知识, 结合特定的具身智能场景和任务描述, 为智能体提供环境感知和任务规划的能力. 图 1 列举了近年来大模型驱动的具身智能领域的代表性成果. 在赋能感知和规划之外, 大模型能够和具身智能的经典框架结合, 提升策略的泛化能力和对环境的适应能力. 具身智能的传统框架主要包括模仿学习 (imitation learning, IL)[13] 、强化学习 (reinforcement learning, RL) [14] 、模型预测控制 (model-predictive control, MPC) [15] 等. 具体地, 模仿学习遵循监督学习的范式, 通过直接从专家轨迹数据中学习策略, 但往往受限于专家数据的规模和协变量偏移 (covariate shift) 问题而容易产生较高的泛化误差; 强化学习通过在环境交互中试错来获得样本, 通过最大化奖励来获得策略和值函数, 但在机器人任务中受限于复杂的奖励设计和长时间的环境交互; 模型预测控制通过使用环境模型产生对未来策略执行情况的预测, 结合策略搜索方法获得当前最优的动作, 但依赖于对环境的先验知识和环境模型的泛化能力. 近年来, 许多研究尝试了大模型技术与上述框架的结合, 从而克服现有框架面临的问题 [16] . 具体地, 在模仿学习中, 大语言模型和视觉语言模型能够作为基础策略使智能体利用大模型对环境的理解和泛化能力, 同时, 大模型对任务的分解能够产生的任务短期目标来降低模仿学习的难度 [17] ; 在强化学习中, 大模型能够根据对任务和场景的理解产生合适奖励函数来引导强化学习中价值函数和策略函数的学习, 同时强化学习能够作为大模型的基础策略和人类偏好对齐的工具, 引导策略的输出符合人类偏好 [18] ; 在模型预测控制的框架下, 大模型能够利用从大量训练数据中获取的对物理世界的理解构建环境模型, 进而使智能体能够使用环境模型进行交互和策略搜索 [19] . 此外, 视觉生成模型和语言生成模型可以根据任务需求生成机器人交互环境供强化学习算法进行交互, 或生成交互数据来扩充特定任务下的专家样本, 用于缓解真实机器人任务中普遍存在的数据稀缺问题 [20] . 本文围绕大模型驱动的具身智能, 首先介绍相关技术背景, 包括具身智能的基本概念, 大模型相关技术, 以及强化学习、模仿学习、模型预测控制等策略学习框架. 随后, 从学习范式的角度, 将大模型驱动的具身智能算法进行分类, 主要包括大模型驱动的环境感知、任务规划、基础策略、奖励函数和数据生成等 5 个方面. 其中, (1) 大模型驱动的环境感知从冗余的多传感器观测中进行特征抽取和信息融合, 能够提取对策略学习有用的信息, 从而使具身智能学习框架普遍受益; (2) 大模型对宏观任务的规划使用大模型的逻辑推理能力对复杂任务进行分解, 允许使用灵活的底层学习框架对分解后的任务进行策略学习; (3) 大模型驱动的基础策略可以与模仿学习框架进行结合并作为模型学习的初始策略, 在使用少量机器人的任务数据微调后, 大模型能够将通用的环境理解能力和特定的具身应用场景结合, 减少策略训练对机器人数据的需求量并提升策略的泛化能力; (4) 大模型驱动的奖励函数可与强化学习算法进行结合, 减少机器人场景中人为进行奖励函数设计的难度, 降低奖励函数设计对物理先验知识的依赖, 克服强化学习算法在机器人任务中面临的稀疏奖励问题; (5) 大模型驱动的数据生成根据学习框架的不同分为两类: 一方面, 大模型可作为环境模型生成智能体的未来轨迹预测, 与模型预测控制算法和基于模型的强化学习算法相结合进行策略搜索; 另一方面, 大模型可以生成机器人数据用于具身策略训练, 作用于无模型强化学习算法和模仿学习算法, 从而缓解机器人任务的数据缺乏问题. 在对研究现状进行总结和分析的基础上, 本文提出了大模型驱动的具身智能研究中存在的 5 大挑战, 主要包括: (1) 大模型在特定具身场景中的适应问题. 从宏观上看, 大模型是广泛意义上的 “通才”, 而在特定具身任务中往往需要能解决该任务的 “专才” 智能体, 如何使用大模型中涌现的通用知识在机器人任务中达到精确的物体操作和稳定的运动控制, 仍然是一项长期的挑战. (2) 大模型策略和人类偏好的对齐问题. 具身任务的策略偏好和大模型中使用人类偏好往往有所不同, 例如, 面对具身智能规划问题, 大语言模型往往趋向于给出多样的、全面的回答, 而智能体执行任务需要准确的、可安全执行的指令分解. 如何将大模型能力和人类偏好在具身智能任务中进行对齐是一项重要的研究问题. (3) 具身策略的跨域泛化问题. 大模型能够对不同的任务指令进行解析, 对多样化的视觉场景进行识别. 然而, 具身智能同时面临着跨域泛化的难题, 如环境参数改变、机器人动力学改变, 跨形态学实体的泛化等机器人特有的问题, 目前大模型尚不具备直接解决问题的能力. (4) 大模型驱动多智能体协作的能力. 在解决复杂任务中往往需要多个智能体进行协作, 其中涉及到的任务分配、合作博弈、沟通反馈等传统多智能体合作问题在大模型背景下缺乏相关研究, 如何使大模型驱动多智能体进行高效协作在未来是重要的研究问题. (5) 大模型具身策略的决策实时性问题. 机器人策略在执行过程中环境观测是快速变化的, 具身策略需要保持较高的决策频率. 而大模型在进行单次推理时需要较高的计算代价, 如何解决大模型在规划和决策时的实时性是大模型在实体机器人应用的重要问题. 本文将对以上挑战进行分析和总结, 对可能的研究路线进行展望, 为大模型在具身智能中的广泛应用提供系统性参考. 本文的主要框架如图 2 所示.