来源:中国信息通信研究院、北京人形机器人创新中心有限公司 具身智能是人工智能(AI)与其他学科交叉融合发展的智能新范式,从字面可理解为“具身+智能”,通过赋予AI“身体”,能够与现实产生交互,让AI从仅存于数字世界的软件算法走向真实的物理世界,并在物理世界也能呈现模拟人类甚至超越人类的智能水平。中国信息通信研究院、北京人形机器人创新中心有限公司联合发布了《具身智能发展报告(2024年)》报告。
报告致力于厘清具身智能的概念内涵、演进历程、技术体系,通过梳理当前具身智能技术发展现状,研判分析具身智能应用潜力与带来的影响,并总结当前产业应用困难与挑战,展望思维智能和行动智能有机融合的无限可能。
报告核心观点
1. 具身智能:依靠物理实体通过与环境交互来实现智能增长的智能系统
当前,针对具身智能各家观点百花齐放,但都明确了“智能”的核心地位。因此,本报告从AI视角切入,认为具身智能是指通过机器人等物理实体与环境交互,能进行环境感知、信息认知、自主决策和采取行动,并能够从经验反馈中实现智能增长和行动自适应的智能系统。
2. 具身智能与离身智能相互补充、协作发展共同促进了对智能的理解、模拟与扩展——具身智能时代有望来临
结合人工智能的演进历程,具身智能的发展大致可以分为三个阶段,即:早期萌芽阶段(1950s-1990s),在对智能的激烈争论和分立研究中,形成AI三大学派,尚未形成成熟的智能理论;技术积累阶段(1990s-2022),随着智能理论的完善、底层数学理论的深耕,AI三大学派从各自突破,逐步走向取长补短的综合性研究,为具身智能发展奠定理论和算法基础;技术突破阶段(2022年至今),以ChatGPT为代表大模型的通用知识和智能涌现能力为机器人实现智能感知、自主决策乃至拟人化交互方面带来巨大潜力。当前人们的关注点转向如何将AI应用于物理世界,并期望通过AI的“具身化”找到新的智能增长点。
3. 具身智能技术尚处于多条路径探索发展阶段,可以类比于自然语言处理领域的“BERT”发展时期
具身智能技术体系可分为“感知—决策—行动—反馈”四个模块形成一个闭环,在与环境的不断交互中,实现对环境的重构映射、自主决策和自适应行动,并从经验反馈中不断学习进化。
4. 具身智能将在技术涌现式创新和突破下,实现“一脑多形”“一机多用”
具身智能将成为与各行各业深度融合的创新驱动力,其相关应用有望快速扩展至社会经济的各个层面,推动着生产力的跃升和生活方式的变革。有望实现“一脑多形”即让一个智能系统适配各种形态的物理实体,如智能机器人、智能车辆等; 将实现“一机多用”,即让一个机器设备可以灵活地执行多种任务,适应多样化场景。未来将从工业协作生产到柔性制造,从家务助手到医疗护理,从灾难救援到太空探索,深入融入人类社会。
**5. 具身智能在感知与认知、学习与泛化、计算能力、多任务处理、安全性、隐私保护以及人机关系等多个方面都面临着挑战 **
**算法层面:**具身智能系统在实现通用智能时面临两大根本性挑战。一是系统需要人类智能的介入,二是尚未实现感知到行动间的认知映射。**数据层面:**缺乏数据成为具身智能能力突破的重要壁垒。一方面,真实数据面临获取成本过高,广泛、高质量和多样化的挑战。另一方面仿真合成数据面临“现实差距”——即模拟环境与现实世界之间的差异挑战。**软件层面:**缺乏统一的操作系统和标准化软件开发工具链。**硬件层面:**耐用性和能源效率以及与软件的深度集成需求构成了具身智能硬件发展的主要障碍。**标准与合规层面:**具身智能技术、评测、安全伦理等标准缺失,面临信息安全、个人隐私等一系列伦理和社会学问题。
一、全球具身智能发展态势
1950 年,图灵在其经典论文《Computing Machinery and Intelligence》中探讨“机器是否能思考”这一根本问题,认为人工智能的终极形态是使机器像人一样能与环境交互感知、自主规划、决策、行动和执行的机器人/仿真人(在虚拟环境中)。而有望实现的两条路径,一是来源于抽象计算(比如下棋)所需的智能,二是为机器配备最好的传感器,使其可以与人类交流,像婴儿一样进行学习。后续,这两条路径逐渐演变成了离身智能(Disembodied Artificial Intelligence)和具身智能(Embodied Artificial Intelligence,简称“EAI”)。 当前,依靠海量数据,结合算法和计算能力的提升,以 ChatGPT 为代表的离身智能实现智能涌现。自其推出之后,数字世界的 AI 技术逐步展现出由遥远人类甚至超越人类的思维能力。加利福尼亚大学圣迭戈分校的研究团队在交互式双人图灵测试中发现,人们无法区分 GPT-4 与人类。但在物理世界中,智能机器人仍然仅是智力有限的任务工具。在此背景下,人们的关注点逐渐转向如何让 AI 的认知从互联网的数字信息拓展到现实的物理概念,包括感官、空间、行动等情感,并将其更好地应用于物理世界。实际上,大模型对互联网上述大量图文信息的处理和学习,本质上是“读写卷书”的过程,这样的训练本质决定了具身智能所面临的挑战。 可以增强智能体的感知、知识理解和思维能力,但无法取代“行万里路”所带来的体验。就像人类在真实世界中的亲身体验和劳动,无法仅通过阅读和观看视频来替代。具身智能可以赋予 AI 身体,并具备与物理世界的交互学习能力,这是不能通过看图、看文字这些数字信息所能够弥补、习得的。2023 年,Nature 子刊刊登了由 Yoshua Bengio、Yann LeCun 等科学家联名发表的文章,提出下一代 AI 的终极挑战是通过具身图灵测试,即复现生物体的感应运动能力,包括与世界互动、灵活的行为、高效的能量利用等。具身智能被誉为迈向通用人工智能的重要一步,引发了新一轮的技术浪潮。