文 / 苏航

如果说语言模型代表了人类对世界认知的总和,那么多模态大模型则赋予了机器“睁眼”看世界的能力,而具身智能进一步赋予了智能体与物理环境互动的能力,使其能够通过主动探索外部世界进行交互式学习,从而逐步实现通用人工智能。作为一种人工智能范式,具身智能强调智能体在物理环境中的自我感知、互动和决策能力。与传统的以计算和推理为主的纯认知智能不同,具身智能认为,智能体的智能行为源自其“身体”和“环境”的交互过程,环境和身体的物理属性直接影响智能体的认知、感知和行为,使智能体能够在不断变化的环境中作出适应性决策。

传统的具身智能方法通常基于规则或手动设计的控制算法,例如运动规划、基于感知反馈的状态更新等设计较多依赖预定义规则,与早期自然语言处理中的特征工程类似。这些方法虽然在特定场景下有效,但在开放动态环境中存在泛化能力不足和适应性差的问题,难以满足复杂环境下的高效决策需求,极大地限制了具身智能模型的大范围应用。近年来,数据驱动的方法在自然语言处理、计算机视觉等领域取得了巨大成功,深度学习在这些领域广泛应用带来了自适应特征提取与决策能力的提升。这一趋势启发我们是否可以通过数据驱动的范式,结合强化学习和自监督学习等方法,为具身智能模型赋予更强的环境适应性和决策能力,推动具身智能向更高的智能化水平发展。而随着高保真物理仿真平台的发展和高效并行计算能力的提升,具身智能的训练和测试条件变得更加完善,为数据驱动的具身智能模型的迭代和优化提供了可行的基础。

本文重点从数据的范式视角讨论具身智能的研究。

著名华人学者李飞飞在美国文理科学院院刊上撰文指出,“具身智能是未来人工智能发展的北极星技术”。目前,具身智能的研究总体围绕三个核心问题展开。首先是自我认知,即机器如何通过自主方式了解自身的能力、结构、限制,以及可以执行的任务,以便更好地实现自主决策;其次是环境认知,即通过传感器和数据处理技术感知并理解周围环境的物理特性、动态变化和潜在风险,做到对外界环境的精确感知;最后是自我与环境关系的认知,即识别并理解自身与环境的互动关系,能够在不同场景中调整策略,以实现更加精准的任务执行。因此,具身智能的研究不仅注重个体认知,还关注智能体在环境中如何表现出适应性。

早在 2020 年,相关学者就在 Nature Machine Intelligence 上发表文章,提出“实体人工智能”是未来人工智能的发展方向,这一概念与当前的具身智能(embodied AI)密切相关。图灵奖得主 Yoshua Bengio 和 Yann LeCun 也联名撰写白皮书,将具身图灵测试视为下一代人工智能的挑战,即具身智能不仅要理解感知和决策,还需具备动态环境中的应变能力。自 2022 年末 ChatGPT 技术问世以来,如何通过数据驱动范式提升具身智能的水平吸引了广泛关注,几乎每月都有新进展和技术突破涌现,涵盖从机器人感知优化到自适应决策等多个方向。

相比传统机器人,具身智能机器人在应用场景中带来了更多的挑战。具身智能的关键特性在于其泛化性,可以跨场景应用,实现快速部署和灵活作业。这种灵活性大幅降低了部署成本和周期,拓宽了机器人在不同场景下的应用边界,例如在家庭服务、柔性制造,以及复杂户外环境中的适应能力,而不仅局限于固定的场景和任务。传统工业机器人更注重可靠性、稳定性和高精度,例如某些工业机器人能够在重复操作中保持每次偏差不超过 1 mm,得益于多年的技术积累。然而,在开放、动态的场景下,传统工业机器人通常适应性较差,难以应对复杂环境中的变化,需要引入人工智能技术以提升其泛化能力,满足更广泛场景的需求。

下面介绍我们在具身智能领域做的初步探索。

2022 年前后,我们开始研究四足机器人的控制算法,这一过程充满挑战。当时采用了数据驱动范式来实现机器人控制,并于 2024 年元旦在北京的大雪后进行了室外实验。相比于传统的室内环境,这种环境下的实验难度极高:首先,北京雪地环境的数据采集极为困难,几乎不可能靠真实数据采集完成模型训练;其次,仿真数据也难以完全还原雪地的复杂地表,因为任何仿真环境都无法真正再现如此多样的自然地貌细节。因此,单纯依靠传统的机器人控制方法和电机解算难以应对这样的复杂环境,只能通过强化学习的泛化性来实现。但是,一定程度上超出我们预期的是,通过数据驱动的强化学习算法,机器人在雪地实验中的表现了非常好的泛化性,尽管没有在训练过程中见到这样的数据,强化学习策略仍然可以很好地泛化到真实的复杂场景中。如图 1 所示,这台 25 千克的机器狗顺利地在雪地、障碍物、山坡等各种复杂地形中行走了 2 个小时,表现出色。因此,通过数据驱动的方法,足式机器人的泛化能力,以及在不同环境下的自主运动能力和适应性得到了显著提升,能够在开放环境中有效地应对挑战和变化。

图 1 足式机器人的实验环境

我们的核心策略是采用数据驱动的求解思路,使四足机器人能够适应开放动态的真实场景,大幅提升模型的稳健性和适应性。在训练过程中,利用英伟达提供的仿真环境(见图 2),以数据驱动的方法进行求解。训练覆盖了数千种典型任务场景,每种场景下配置了不同的参数组合,使样本规模达到了千万级。这种标准化仿真范式让四足机器人能够在丰富多样的复杂场景中学习,包括多种环境变量。在仿真环境中,我们设计了不同地表摩擦系数、台阶高度、斜坡角度等组合,模拟真实世界中的复杂挑战。通过这些极端难题的模拟,机器人得以在安全的虚拟环境中提前经历各种潜在的困难场景,积累大量应对经验。在这一过程中,机器人通过学习多样化的数据增强了其泛化能力,从而在现实环境中能够有效应对各类不确定性和复杂性。这一数据驱动策略,为机器人在真实环境中实现高度适应性奠定了坚实的基础。

图 2 仿真训练环境

如图 3 所示,机器狗在多种地形上实现了自适应的稳定行走。右上角展示了它在不同坡度上的表现:借助强化学习驱动,它成功攀上了 55 o 的陡坡,远远超出了其出厂配置。这得益于机器狗的 12 个电机。传统控制方法通常需要对每个电机进行单独调节,而要协调多个电机的联动控制,无疑带来了极大的技术难度。然而,借助强化学习,我们成功实现了多电机的协同控制,使 12 个电机间灵活配合,充分发挥了硬件的潜力。例如,机器狗在上坡时自主学会了降低重心,以匍匐姿态前进;而在下坡时则提升重心,从而实现更稳健的行走。这些自适应动作无需手动编写规则,而是通过强化学习中的自学习和泛化能力顺利掌握的。此外,在下雪环境中的测试表明,智能体对硬件的依赖性显著降低。过去要减少硬件依赖,需要精确了解硬件的结构参数,并进行复杂的数学解算。例如,要实现机器人行走,需要先计算着力点,再求解集中控制方程。而如今通过大数据驱动范式,这种对硬件的依赖大大减弱,使得机器狗在各种复杂环境下更具灵活性和适应性。这种研究范式的转变,不仅推动了机器人领域的“民主化”进程,也加速了技术的发展与普及。

图 3 机器狗稳定行走效果

数据只是第一步,如何在数据之外兼顾模型的容量和推理效率,仍是机器人领域亟需解决的诸多问题之一。例如,尽管在仿真环境中训练效果良好,但当模型部署到实际的机器狗上可能会出现站立不稳等一系列新挑战。基于 Transformer 的策略学习模型为序列建模提供了强大工具,已经在自然语言处理等任务中展现了优异表现,特别是其出色的泛化能力和较大的模型容量。然而,Transformer 的推理效率较低,推理时间复杂度为 O(n2),在机器人控制中受到极大限制。例如,在行走任务中,机器人的控制频率至少要达到 100 Hz 以上(理想状态下达到 200 Hz)才能确保行流畅性。而传统的 Transformer 模型仅能达到十几赫兹的推理频率,导致机器狗行走步伐不稳,如谷歌发布的模型,由于未考虑机器人特有的归纳偏置,直接应用Transformer进行控制导致较高的推理延迟,远远无法满足实时控制的要求。

为了兼顾模型的容量和推理效率,我们将频域控制引入模型,融合了高低频信息的处理。考虑到高频部分大多是噪声,我们通过注意力机制自适应地聚焦于低频变量,以精准捕捉关键信息,即

这项研究 Tan 等已发表在 ICML 2024 的论文中。

许多高频成分包含了大量噪声信号,其中一些高频控制信号传递至电机时会导致电机的稳定性下降,进而引发电机过热,并带来额外的能量损耗。这也是许多机器狗在行走十几分钟后便出现性能下降的原因之一。为此,我们在模型中采用了传统方法滤除不必要的高频成分,以更加平滑的方式进行控制,从而提升能效并增强系统的稳定性。图 4 展示了我们设计的新型面向机器人的 Transformer 架构,该架构在保持模型容量的同时显著降低了推理复杂度。图中,红线表示我们的推理复杂度,蓝线表示标准 Transformer 的复杂度。随着网络规模的增大,我们的模型在推理复杂度方面显著优于传统 Transformer 架构,从而保证了模型能够高效地在机器人硬件上部署,支持实时控制需求。

图 4 面向机器人的 Transformer 架构

此外,我们还对机器狗在多种复杂场景下进行了全面测试。虽然室内测试的效果较多,但在野外场景下,很多关键数据无法提前采集,对于机器人的控制策略是极大的挑战。尤其是对于足式机器人而言,具备越野能力是其区别于其他机器人的至关重要能力,更加需要依靠自身的泛化能力来适应这些不确定环境。

随着任务复杂性的提升,仍然存在诸多挑战,特别是在抓取任务这种以视觉等高维数据作为输入、控制精准性要求较高的任务中,目前的仿真不能满足模型学习的要求,需要更多的真实数据,以及更加复杂的模型和算法。

我们以双臂操作任务作为一个代表性的任务进行研究。在大多数情况,人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂,显然更灵活,也更能帮助人类。但是,目前的双臂机器人距离落地还有一段路要走,根本原因是双臂的人类演示数据匮乏,“巧妇难为无米之炊”,而且模型泛化能力不足,不能“举一反三”。为了解决这个问题,一种通常的做法是利用多种不同机器人的数据,训练一个可泛化的“大模型”。但这又会带来两个新的挑战。一是,在机器人领域,缺乏一个像 GPT一样的通用、强大的“模型架构”。它不仅需要能学会各种的动作模式(modality),还需要具备可扩展性(scalability)。换言之,扩大模型的参数量,它的性能也要跟着一起涨。二是,在之前的研究中,尚没有一个公认的在多种机器人数据上训练的方案。这主要是因为不同机器人的硬件结构和传感器不同,进而导致数据的格式五花八门,难以进行统一的处理。

目前在图像处理中,扩散模型在复杂概率建模方面表现出强大的能力,这启发了我们是否可以将扩散模型应用于行为数据建模。首先,我们可以收集离散动作数据,将人类或机器人的行为数据视作一种概率分布进行建模,然后通过一系列的轨迹调整,将策略与分布关联起来。这种关联实际上形成了一个函数关系,并与强化学习密切相关,从而可以通过策略范式直接处理复杂行为分布建模问题。这种方法不仅让机器人在多样化场景中具备更高的适应性,还能在更为复杂的任务中实现基于概率分布的自主行为生成,为具身智能的发展带来新的技术路径。为了解决上述问题,团队构建了目前全球最大的针对双臂机器人操作任务的扩散基础模型 Robotics Diffusion Transformer(RDT)。相比其他机器人模型,RDT 实现如下所述的技术突破。

• 在机器人扩散模型中,RDT 拥有目前“最大的模型参数量”,高达 1.2 B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型(八爪鱼,Octo,93 M)还要大一个数量级。

• RDT 在“最大的具身数据集”上预训练。预训练数据集包含 46 个不同的机器人数据集,总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1 M 步。

• RDT 拥有目前“最大的双臂微调数据集”。清华团队构建了包括 300+ 任务和 6 K+ 条演示的数据集。与之对比,先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 微调数据集仅有几百条演示。

我们在利用扩散模型对数据集进行学习,对整 个机器人的概率分布操作的同时,用概率建模的方 式学到了它的分布。即通过训练一个带有参数 θ 的 去噪网络f(θ),以从噪声的动作块序列中预测出干净 的动作序列:

基于统一的动作空间表征,我们构建了目前规模最大的机器人操作领域的扩散模型(robotics diffusion transformer,RDT),模型规模达到 12 亿参数,在多任务双臂机器人数据集上对 RDT 进行了微调(见图 5)。RDT 表现出对未知物体和环境的零样本泛化能力,能够仅通过 1~5 次示范学习新技能;能够遵循用户提供的语言指令,并有效处理复杂的灵巧任务。其训练效果远远超过了我们之前的一些想象,表现出非常强的控制能力。例如,让机器人操作遥控器来控制机器狗,遥控器按钮非常小,这个机器人用数据集里很小的量就能学到如何控制机器狗。

图5 RDT扩散模型

(https://rdt-robotics.github.io/rdt-robotics)

如图 6 所示,RDT 在泛化能力上,以及灵巧性、未知的物体、未知环境等多种任务测试上,大幅度领先对照方法。

图 6 RDT 在泛化能力

例如,对于倒水任务,模型需要能泛化到未见过的环境与语言指令,并理解用户要求,倒水至特定水位。而对于传递物体和叠裤子的任务,仅给少量演示(1~5 条),RDT 就需要学会一个全新的技能。

在 RDT 模型的加持下,双臂机器人成功挑战 7 项高难度任务,平均成功率上比当前最好的模型还要高出 56%。团队已将 RDT 的代码、模型,训练它的双臂数据集彻底开源,以期通过开源 RDT 能加速机器人研发和产业化进程 (https://rdt-robotics.github.io/rdt-robotics)。项目发布后,目前 RDT 在世界最大的开源模型平台—— HuggingFace 上的机器人榜单“热度排名第一”。

语言模型代表了人类对世界认知的边界,多模态大模型赋予了机器“睁眼”看世界的能力,而具身智能更进一步,使机器能够与物理环境进行深度交互,这是通向通用人工智能的必由之路。然而,目前用于训练机器人的高质量数据仍极度匮乏,真实数据难以大规模采集,仿真数据在还原复杂环境上也面临技术瓶颈。因此,要满足大模型对数据的需求,仍需在数据采集和积累上投入大量时间和资源。扩散模型在建模复杂行为数据分布方面展现出明显优势,能够有效处理多模态、多峰特性,为具身智能在多样化环境中的泛化性提供了重要支持。然而,总体来说,具身智能仍面临诸多亟待解决的问题。首先,模型的泛化能力和鲁棒性在真实复杂环境中尚未得到充分验证;其次,物理交互中的实时决策和反应速度仍有待提升,以便应对高动态、不确定的应用场景。此外,具身智能还面临计算资源的高昂需求和高效训练的技术挑战。在这些技术瓶颈突破之前,具身智能的广泛应用还需要克服相当多的障碍。

(参考文献略)

苏航

清华大学计算机系副研究员,国家“万人计划”青年拔尖人才。主要研究对抗机器学习和鲁棒视觉计算等相关领域,发表 CCF 推荐 A 类会议和期刊论文百余篇,谷歌学术论文引用万余次。IEEE TPAMI和Artificial Intelli-gence 编委,IEEE 生成式大模型安全工作组主席。曾获吴文俊人工智能自然科学一等奖、ICME 铂金最佳论文、MICCAI 青年学者奖和 AVSS最佳论文等,率队在 NeurIPS2017 对抗攻防等多个国际学术比赛中获得冠军。

选自《中国人工智能学会通讯》 2024年第14卷第12期 大模型技术专栏

成为VIP会员查看完整内容
0

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
开放场景下新型机器学习理论与方法研究
专知会员服务
21+阅读 · 1月18日
大模型智能体:概念、前沿和产业实践
专知会员服务
66+阅读 · 2024年8月20日
大语言模型视角下的智能规划方法综述
专知会员服务
123+阅读 · 2024年4月20日
基于人机智能融合技术的态势感知应用研究
专知会员服务
85+阅读 · 2024年2月11日
边缘智能研究进展
专知会员服务
78+阅读 · 2023年11月6日
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
多模态数据的行为识别综述
专知会员服务
85+阅读 · 2022年11月30日
基于表格数据的深度学习方法
专知会员服务
38+阅读 · 2021年10月19日
基于深度学习的数据融合方法研究综述
专知会员服务
142+阅读 · 2020年12月10日
专知会员服务
113+阅读 · 2020年3月20日
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
人工智能应用实践与趋势
人工智能学家
13+阅读 · 2019年9月20日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
人工智能的现状与未来(附PPT)
人工智能学家
75+阅读 · 2019年3月27日
人工智能在教育领域的应用探析
MOOC
13+阅读 · 2019年3月16日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
434+阅读 · 2023年3月31日
Arxiv
73+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
开放场景下新型机器学习理论与方法研究
专知会员服务
21+阅读 · 1月18日
大模型智能体:概念、前沿和产业实践
专知会员服务
66+阅读 · 2024年8月20日
大语言模型视角下的智能规划方法综述
专知会员服务
123+阅读 · 2024年4月20日
基于人机智能融合技术的态势感知应用研究
专知会员服务
85+阅读 · 2024年2月11日
边缘智能研究进展
专知会员服务
78+阅读 · 2023年11月6日
面向算法选择的元学习研究综述
专知会员服务
44+阅读 · 2023年2月11日
多模态数据的行为识别综述
专知会员服务
85+阅读 · 2022年11月30日
基于表格数据的深度学习方法
专知会员服务
38+阅读 · 2021年10月19日
基于深度学习的数据融合方法研究综述
专知会员服务
142+阅读 · 2020年12月10日
专知会员服务
113+阅读 · 2020年3月20日
相关资讯
基于深度学习的数据融合方法研究综述
专知
31+阅读 · 2020年12月10日
人工智能应用实践与趋势
人工智能学家
13+阅读 · 2019年9月20日
深度学习人体姿态估计算法综述
AI前线
23+阅读 · 2019年5月19日
人工智能的现状与未来(附PPT)
人工智能学家
75+阅读 · 2019年3月27日
人工智能在教育领域的应用探析
MOOC
13+阅读 · 2019年3月16日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
14+阅读 · 2017年5月19日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员