引言 想象一下,我们对一个家务机器人说:“嘿,帮我把客厅打扫一下,然后把那杯喝了一半的水倒掉。” 对于人类,这是一个非常简单的指令,但对机器人而言,这背后却隐藏着巨大的挑战。它需要理解什么是“客厅”,如何识别“喝了一半的水”,并规划出“先去客厅”、“找到杯子”、“拿起杯子”、“走到厨房水槽”、“倒水”、“放回杯子”等一系列连贯、合理的动作。

这个过程,正是具身人工智能(Embodied AI)研究的核心——构建能够在物理世界中感知、交互并完成任务的智能体。其中,具身规划(Embodied Planning)扮演着智能体“大脑”的关键角色。

那么,究竟什么是具身规划?

我们可以把它理解为:一个将高层次、多步骤的用户指令(例如“打扫房间并将所有物品归位”)有效地分解为机器人能够理解并顺序执行的一系列底层原子动作(如“移动到桌子前”、“抓取杯子”)的过程。这要求模型不仅具备高级推理和理解能力,还需要将抽象的语言概念与物理世界的感知和行动紧密“具身”结合。同时,它还要能应对执行过程中可能出现的异常和不确定性,以确保规划的鲁棒性和可落地性。

传统的AI规划方法虽然为此奠定了理论基石,但在处理模糊的自然语言、运用常识以及融合多模态信息方面,始终存在一些难以逾越的局限。近年来,大型语言模型(LLM)和多模态大模型(MLLM)的出现,为解决这些长期存在的难题开辟了新的路径。

这篇笔记将系统梳理具身规划的发展脉络。我们会先回顾奠定基础的经典规划方法,然后重点探讨由大模型驱动的现代研究,剖析其核心策略与挑战,并对领域的未来趋势进行讨论。

成为VIP会员查看完整内容
0

相关内容

【ICML2025】通用智能体需要世界模型
专知会员服务
20+阅读 · 6月4日
工业中的数字孪生:全面综述
专知会员服务
67+阅读 · 2024年12月3日
图提示学习最新综述
专知会员服务
20+阅读 · 2024年8月28日
Al Agent--大模型时代重要落地方向
专知会员服务
101+阅读 · 2024年4月8日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
【2021新书】ApachePulsar 实战,402页pdf
专知会员服务
71+阅读 · 2021年12月29日
专知会员服务
90+阅读 · 2021年6月29日
自回归模型:PixelCNN
专知会员服务
27+阅读 · 2020年3月21日
Normalizing Flows入门(上)
AINLP
10+阅读 · 2020年8月1日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
2019最全目标检测指南
计算机视觉life
13+阅读 · 2019年10月22日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
情感计算综述
人工智能学家
34+阅读 · 2019年4月6日
揭开GANs的神秘面纱
机器学习算法与Python学习
10+阅读 · 2019年2月27日
Kaggle比赛实战教程
专知
14+阅读 · 2018年7月30日
Python NLP 入门教程
大数据技术
20+阅读 · 2017年10月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
465+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Lifelong Learning Metrics
Arxiv
48+阅读 · 2022年1月20日
VIP会员
相关VIP内容
【ICML2025】通用智能体需要世界模型
专知会员服务
20+阅读 · 6月4日
工业中的数字孪生:全面综述
专知会员服务
67+阅读 · 2024年12月3日
图提示学习最新综述
专知会员服务
20+阅读 · 2024年8月28日
Al Agent--大模型时代重要落地方向
专知会员服务
101+阅读 · 2024年4月8日
视频文本预训练简述
专知会员服务
22+阅读 · 2022年7月24日
【2021新书】ApachePulsar 实战,402页pdf
专知会员服务
71+阅读 · 2021年12月29日
专知会员服务
90+阅读 · 2021年6月29日
自回归模型:PixelCNN
专知会员服务
27+阅读 · 2020年3月21日
相关资讯
Normalizing Flows入门(上)
AINLP
10+阅读 · 2020年8月1日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
2019最全目标检测指南
计算机视觉life
13+阅读 · 2019年10月22日
Graph Neural Networks 综述
计算机视觉life
30+阅读 · 2019年8月13日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
情感计算综述
人工智能学家
34+阅读 · 2019年4月6日
揭开GANs的神秘面纱
机器学习算法与Python学习
10+阅读 · 2019年2月27日
Kaggle比赛实战教程
专知
14+阅读 · 2018年7月30日
Python NLP 入门教程
大数据技术
20+阅读 · 2017年10月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员