摘要 — 基础模型的迅速出现,特别是大规模语言模型(LLMs)和视觉-语言模型(VLMs),为机器人技术带来了变革性的范式。这些模型在语义理解、高级推理和跨模态泛化方面提供了强大的能力,推动了感知、规划、控制和人机交互的重大进展。本综述文章提供了近期发展的系统性总结,按仿真驱动设计、开放世界执行、模拟到现实迁移和适应性机器人等应用进行分类。与现有的侧重于孤立能力的综述不同,本工作强调了集成化、系统级的策略,并评估了它们在现实环境中的实际可行性。文中讨论了诸如过程场景生成、策略泛化和多模态推理等关键推动趋势,同时也分析了核心瓶颈,包括有限的体现性、缺乏多模态数据、安全风险和计算约束。从这一视角出发,本文揭示了基于基础模型的机器人技术的架构优势与关键局限,突出了实时操作、基础性推理、鲁棒性和信任等方面的开放挑战。最后,本综述提出了未来研究的路线图,旨在通过更加稳健、可解释和具体现化的模型,弥合语义推理和物理智能之间的鸿沟。 关键词 — 机器人技术、大规模语言模型、视觉-语言模型、基础模型。

I. 引言

大规模语言模型(LLMs)及一般基础模型的迅速发展,标志着人工智能(AI)领域的重要里程碑,尤其是在自然语言理解和推理方面。这些模型基于具有数十亿参数的变换器架构[1],在海量的互联网规模语料库上进行预训练,使其具备了广泛的世界知识和超越小型模型的新兴能力[2]。特别是,像GPT-3[3]这样的LLM展示了令人印象深刻的少样本学习能力,无需微调[4],[5],而更近期的模型如GPT-4[6]则展示了先进的推理能力,并支持多模态功能,在多个基准测试中达到了人类水平的表现。

与此同时,机器人技术的快速进展,特别是在感知、学习、控制和规划方面,为智能物理系统创造了新的机会[7],[8]。尽管如此,机器人系统仍未达到人类级别的智能,特别是在现实世界应用所需的灵活性、适应性和泛化能力方面[9]。它们通常难以跨任务转移知识、适应不可预见的场景,或展示人类行为特征的细致决策能力。传统上,机器人的自主性基于显式编程或特定任务的狭窄学习[10]。这些方法在受限环境中有效,但在复杂、动态的环境中却限制了可扩展性,并带来了显著的挑战。

为了应对这些局限,LLM与机器人技术的最近集成引入了一种新范式,利用它们丰富的语义知识和推理能力来改善机器人智能体的沟通、规划和适应性[2]。LLM能够解读高级人类指令、推理目标与行动,甚至生成低级控制代码[11],[12]。这使得机器人能够应对更广泛的任务和环境,借助从语言中学习到的广泛先验知识。 然而,LLM本身与物理上下文无关。它们缺乏体现性,无法理解度量、传感器数据或动态物理[13]。因此,将LLM与机器人系统集成带来了几个关键挑战。这些挑战包括将语言融入感知与行动、实现实时响应性以及确保安全可靠的行为。早期的研究通过将LLM与视觉系统[14]、反馈机制[15]和外部知识源[16]结合,已显示出有希望的结果。然而,如何在多变和不可预测的场景中可靠地将基于语言的智能与物理系统连接,仍是一个未解的问题。

这些挑战突显了对当前LLM驱动机器人技术状态的全面且广泛综述的需求。现有的关键综述[2],[13],[17],[18]集中在感知和规划等传统子领域,或强调特定方法,往往忽略了在实际环境中这些组件的集成。需要一个更广泛的视角,系统地审视高级推理与低级控制之间的关系,考虑语言先验在塑造行为中的作用,并探索将通用LLM适应领域特定约束的可能性。

为了应对这些挑战,本综述提供了关于基础模型及其多模态扩展如何转变机器人技术的整体综合。本文回顾了LLM和视觉-语言模型(VLM)的应用,重点讨论它们在语义感知、自适应规划、目标导向交互和自主控制中的应用。本文强调了集成策略,而非孤立地看待这些能力,聚焦于如何满足实际环境中如基础性、实时响应和安全等需求。通过模拟到开放世界等多样环境中的进展,揭示了LLM驱动机器人技术的潜力与当前的局限。讨论了关键瓶颈,如语义基础和实时性能,并提出了有助于弥合语言理解与物理执行之间差距的新兴解决方案。最后,本文概述了主要的趋势和开放的研究问题,旨在将语言建模的进展与复杂、现实世界应用中具体现化智能的实际需求连接起来。

成为VIP会员查看完整内容
0

相关内容

面向复杂城市系统的物理引导人工智能综述
专知会员服务
19+阅读 · 6月18日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
25+阅读 · 3月6日
不平衡数据学习的全面综述
专知会员服务
41+阅读 · 2月15日
多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2月7日
脑启发的人工智能:全面综述
专知会员服务
48+阅读 · 2024年8月30日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
37+阅读 · 2024年7月28日
大型语言模型与智能机器人集成的综述
专知会员服务
69+阅读 · 2024年4月22日
《基础模型在现实世界机器人应用》综述
专知会员服务
54+阅读 · 2024年2月11日
事件知识图谱构建技术与应用综述
专知
25+阅读 · 2020年8月6日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
深度学习了解一下(附53页Slides)
专知
48+阅读 · 2019年5月20日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
最全的DNN概述论文:详解前馈、卷积和循环神经网络技术
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
171+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
面向复杂城市系统的物理引导人工智能综述
专知会员服务
19+阅读 · 6月18日
生成式人工智能在机器人操作中的应用:综述
专知会员服务
25+阅读 · 3月6日
不平衡数据学习的全面综述
专知会员服务
41+阅读 · 2月15日
多机器人系统的大型语言模型:综述
专知会员服务
33+阅读 · 2月7日
脑启发的人工智能:全面综述
专知会员服务
48+阅读 · 2024年8月30日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
37+阅读 · 2024年7月28日
大型语言模型与智能机器人集成的综述
专知会员服务
69+阅读 · 2024年4月22日
《基础模型在现实世界机器人应用》综述
专知会员服务
54+阅读 · 2024年2月11日
相关资讯
事件知识图谱构建技术与应用综述
专知
25+阅读 · 2020年8月6日
层级强化学习概念简介
CreateAMind
19+阅读 · 2019年6月9日
深度学习了解一下(附53页Slides)
专知
48+阅读 · 2019年5月20日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
综述 | 近年来深度学习的重要研究成果(附PDF)
数据派THU
14+阅读 · 2018年8月15日
最全的DNN概述论文:详解前馈、卷积和循环神经网络技术
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员