具身智能有望开启万亿级蓝海市场。在当前时点复盘机器人与人工智能的发展历程,机器人已经进入具身智能时代,与此同时,人工智能也将走向“物理AI”发展阶段。人形机器人是两者汇聚的交点,也是具身智能时代的临界点,有望成为新一代智能终端,并开启万亿级蓝海市场。
具身智能大模型为机器人“大脑”的核心。具身智能需要本体、智能体、数据、学习和进化架构四大核心要素,通用机器人本体又可以分为“大脑”、“小脑”和“肢体”三部分,其中,人形机器人“大脑”的核心为人工智能大模型技术,通过多模态模型建模、强化学习、地图创建和数据训练,能够管理和协调机器人的各种功能。大模型目前较为擅长需求理解、任务分解等高层级控制任务,规划级以下的控制规划属于传统机器人控制规划的范畴,更适合传统机器人更成熟的高频控制方法。多模态大模型为机器人高层级控制带来技术突破。多模态大模型具有理解图像、场景文本、图表、文档以及多语言、多模态理解的强大能力,可以直接用于具身智能对环境的理解,并通过提示词使之输出结构化内容如控制代码、任务分解等指令语言、图片、视频等。 国内外科技巨头与研究团队入局,具身大模型成果涌现。谷歌、特斯拉、微软、英伟达、李飞飞团队、特斯拉、字节跳动等国内外科技巨头和科研机构争相入局,具身大模型成果不断涌现:谷歌推出RT-1、PaLM-E、RT-2、RT-X等多个具身大模型;特斯拉坚持端到端算法路线,实现感知决策一体化并迁移至人形机器人;英伟达推出物理AI开发平台Nvidia Cosmo及一系列世界基础模型;国内大厂字节GR-2在动作预测和泛化能力上表现出色。 具身大模型目前在泛化性、实时性、数据采集等方面存在挑战。当前的具身大模型通常存在泛化能力弱的问题,已经在特定场景达成较高成功率的模型在切换至不同场景时成功率大幅降低。实时性较差则体现在输出运动频率较低,使得机器人反射弧较长,低于人类和许多实际应用场景的需求。数据采集方面的挑战则体现在真实数据收集效率偏低、收集难度和成本偏高,合成数据的使用中则需要避免生成数据与真实数据差距过大或者样式单一。 云计算与边缘计算作为“大脑”的外延,保障机器人“大脑”高效运转。云计算是为机器人等终端设备提供算力的核心方式,云计算能够为AI、大模型与机器人的结合提供强大的计算能力和数据存储空间,以及能够随时随地获得所需资源和算法支持的灵活性、可拓展性;此外,边缘计算为云计算的数据传输成本、时延、安全性等方面的局限性提供了补充,为具身智能人形机器人落地保驾护航。