人类理解与生成对于数字人类和类人化身建模至关重要。近年来,受大规模语言模型和视觉模型等通用模型成功的启发,以人为中心的基础模型(HcFMs)应运而生,旨在将多样化的人类中心任务统一到一个框架中,超越了传统的任务特定方法。在这篇综述中,我们通过提出一个分类法,对当前的HcFM方法进行全面概述,分为四个类别:(1)以人为中心的感知基础模型,捕捉用于多模态二维和三维理解的细粒度特征;(2)以人为中心的AIGC基础模型,生成高保真度、多样化的人类相关内容;(3)统一感知与生成模型,将这些能力集成,以增强人类理解与合成;(4)以人为中心的代理基础模型,超越感知与生成,学习类人智能和互动行为,应用于类人化身任务。我们回顾了最前沿的技术,讨论了新兴挑战和未来的研究方向。本综述旨在为研究人员和实践者提供一份道路图,助力构建更强大、多样且智能的数字人类和类人化身建模。相关网站已上线。

  1. 引言

近年来,人类外观、情感、身份、动作、意图的理解以及2D和3D的逼真数字人类生成取得了显著进展。这些方法的成功归功于对身份识别[He et al., 2024; Li et al., 2024a]、二维关键点[Wang et al., 2023; Yuan et al., 2024]、细粒度身体部位分割[Tang et al., 2023; Chen et al., 2023a]、深度[Khirodkar et al., 2024]、文本描述[Chen et al., 2024]和人体网格[Cai et al., 2024]的强大估计能力,以及强大的以人为中心的深度学习框架,如视觉变换器[Jin et al., 2024; Wang et al., 2023; Huang et al., 2024a]和扩散模型[Ju et al., 2023; Li et al., 2024b; Lin et al., 2025]。尽管各个任务都取得了进展,但要实现对逼真甚至智能数字人类的稳健和准确的理解与生成,仍然需要深入理解人类作为一个整体和复杂的系统,跨越与外观、身份、运动和意图等多样化以人为中心的任务的交集。此外,大多数现有的以人为中心的工作流是针对特定任务优化的,以获得更好的性能,这导致了在表示/网络设计、预训练、参数调优和注释等方面的巨大成本。因此,近期以人为中心的学习领域呼吁建立一个统一的框架[Ci et al., 2023; Wang et al., 2023; Chen et al., 2024; Huang et al., 2024a],以解锁系统性理解和广泛的以人为中心的应用,惠及所有人。受通用基础模型(如大规模语言模型(LLMs)、大规模视觉模型(LVMs)和文本到图像生成模型)快速发展的启发,并借助这些模型带来的范式转变——从任务特定模型的端到端学习到通用模型,近期的趋势是开发以人为中心的基础模型(HcFM),这些模型满足三个标准,即泛化性、广泛适用性和高保真度。泛化性确保模型对未知条件的稳健性,使其能够在不同环境中保持一致的性能;广泛适用性表示模型的多功能性,使其能够适应多种任务,且仅需最小的修改,甚至无需修改;高保真度表示模型能够生成精确、高分辨率的输出,这是忠实人类生成任务(如2D到3D提升)所必需的。近期在以人为中心的基础模型方面的显著工作包括SOLIDER [Chen et al., 2023a]、PATH [Tang et al., 2023]、UniHCP [Ci et al., 2023]、Sapines [Khirodkar et al., 2024]、MotionGPT [Jiang et al., 2023; Zhang et al., 2024a]、ChatHuman [Lin et al., 2024]等。鉴于以人为中心的基础模型的快速发展和新兴挑战,我们在此提出一份全面的综述,帮助社区跟踪该领域的进展。具体来说,我们通过提出一个分类法,将现有的工作根据其支持的下游任务分为四类:以人为中心的感知基础模型、以人为中心的AIGC基础模型、以人为中心的统一感知与生成基础模型、以及以人为中心的代理基础模型。以人为中心的感知基础模型通过修改现有的无监督和多任务监督预训练框架,捕捉细粒度的人类中心特征,这些特征对于多模态2D和3D感知任务(如基于骨架的动作识别、人类解析等)至关重要。以人为中心的AIGC基础模型则在生成型基础模型成功的基础上,利用丰富的与人类相关的数据,专注于创造具有高度真实感和多样性的人类相关内容。为了更进一步,以人为中心的感知与生成任务可以在单一基础模型中联合建模,借鉴多模态大规模语言模型的启发。此类统一建模已被证明不仅有利于人类理解,还有助于精细和逼真的生成。最后,正如Michael J. Black和Xavier Puig所提到的[Feng et al., 2024],人类基础代理模型超越了感知与生成,它是一种能够接收来自人类传感器信号并基于这些输入与人类互动的模型,其中,表现、动作和运动行为具有类人特征。与其他基础模型不同,以人为中心的代理基础模型旨在学习人类智能,期望能惠及各种具身AI任务。据我们所知,这是关于以人为中心的基础模型的首个综述,提出了一种新的分类法(见图1)。其范围不仅限于现有技术的分类,还探索了未来的潜在发展轨迹,思考了数据、伦理和技术方面的持续进展。

  1. 分类法

分类法的目的是将具有相似支持任务的以人为中心的基础模型归入同一类别。具体而言,我们将现有的以人为中心的基础模型分为四类:以人为中心的感知基础模型、以人为中心的AIGC基础模型、以人为中心的统一感知与生成基础模型和以人为中心的代理模型,这些模型可以进一步根据不同的学习框架进行总结。以下是对这四个类别的简要介绍:(1) 以人为中心的感知基础模型:这些模型从大规模和多模态的以人为中心的数据中学习,支持主要的感知任务,包括人员重识别、人类解析、姿势估计、人体网格恢复和基于骨架的动作识别。其基本思想是利用人体结构或多样的标注来学习细粒度和语义化的以人为中心的表示。基于学习框架,以人为中心的感知基础模型可以进一步分为无监督学习和多任务监督学习。(2) 以人为中心的AIGC基础模型:这些模型旨在创建与人类相关的内容——如图像、视频或虚拟形象。这些模型在大量的以人为中心的数据上进行训练,以生成个体的逼真且多样化的表现,其目标是生成准确反映细粒度人类外观、行为和互动的内容。根据训练范式,这些模型大致可以分为无监督学习和多模态监督学习训练的模型。(3) 以人为中心的统一感知与生成基础模型:这种模型可以支持紧密相关的感知与生成任务。其基本思想是将文本之外的以人为中心的线索视为外语,并将其附加到大型语言模型(LLM)上,形成多模态大型语言模型(MLLM),以进行理解与生成。(4) 以人为中心的代理基础模型:这些模型学习人类智能,支持以人为中心的具身AI任务,如人类-机器人协作任务和社交互动任务。根据学习框架,以人为中心的代理基础模型可以分为基于视觉-语言的方法和基于视觉-语言-行动的方法。这四类基础模型并非相互排斥,而是相互关联,共同促进了以人为中心的基础模型的快速发展。接下来,我们将深入探讨每个类别,探索其关键挑战、代表性解决方案以及新兴趋势。

  1. 以人为中心的感知基础模型

以人为中心的感知基础模型展示了可以从多个以人为中心的任务中学习紧凑的人类中心表示,并有效适应广泛的二维和三维多模态感知任务。根据是否利用以人为中心的标注数据,我们涵盖了两种类型的以人为中心的感知基础模型:无监督学习和监督学习。

3.1 无监督学习方法

以人为中心的无监督基础模型旨在减少对敏感标注的依赖,主要遵循预训练-微调的范式。在预训练过程中,这些模型无需标签,而是利用人体结构的固有先验知识,在编码器中学习多样化和具有代表性的人类中心特征。适应下游任务时,预训练的编码器和任务头将使用标注数据进行参数高效且完全的微调。对比学习方法利用人体先验知识,通过定制的对比损失对编码器提取的特征进行对齐,如图2(a)所示。考虑到人类数据的多模态特性(例如RGB图像、深度图像、二维关键点),这些方法使用多个编码器来处理不同模态的输入,而不是常用的动量编码器。通过包含人体先验,指导多模态对比学习以获取通用的人类中心表示。例如,HCMoCo [Hong et al., 2022]采用多个编码器,通过层次化对比学习框架利用多模态人体一致性。基于此,PBoP [Meng et al., 2024]为生成的潜在部件配对图像引入了额外的编码器。提取的特征可以作为锚点,指导多模态对比学习过程。然而,多模态数据的获取并不总是简单的。当仅有图像时,将额外的损失与人体先验知识结合是一种有效的解决方案。例如,SOLIDER [Chen et al., 2023a]提出了一个额外的语义分类损失,将语义信息导入到学习的特征中。LiftedCL [Chen et al., 2023b]引入了对抗损失来监督提升的3D骨架,明确插入了3D人体结构信息以进行人类中心预训练。 掩码图像建模方法通过重建掩码输入(见图2(b)),基于人体结构的先验知识,隐式地学习人体知识。HAP [Yuan et al., 2024]利用二维关键点来指导掩码采样过程,鼓励模型集中关注身体结构信息。为了引入3D人体先验,[Armando et al., 2024]提出了从交叉视角和交叉姿势对中重建掩码行人图像。得益于人体先验,以人为中心的无监督基础模型在以人为中心的感知任务中,比基于ImageNet的预训练方法表现出更好的性能,特别是在低数据环境下。

3.2 多任务监督学习

当标注数据充足时,多任务监督学习能够利用数据之间的内在关系,成为构建以人为中心的感知基础模型的一种直接有效的范式。最近的一些工作通过学习不同人类中心数据集之间的共享信息,来促进特定的以人为中心的任务,例如人类形状估计[Cai et al., 2024]、行人检测[Zhang et al., 2024b]、重识别[He et al., 2024; Li et al., 2024a]等。通过构建一个适用于相关子任务的统一框架,并同时训练这些子任务,这些方法的表现优于特定任务的专用模型。然而,这些方法的一个显著限制是它们无法学习并执行其他感知任务,这限制了其应用的潜在范围。为应对这一挑战,最近在多任务协同训练方面的进展展示了新的方向。这些进展表明,以人为中心的感知基础模型可以利用任务间的同质性来提升整体性能。 以多任务监督预训练为中心的方法,主要是利用多个不同的监督信号,迫使编码器学习通用的人类中心表示(见图2(c))。为了解决来自不同标签的监督学习带来的任务冲突,PATH [Tang et al., 2023]结合任务特定投影器和层次化权重共享策略,强制编码器为下游的以人为中心任务获得通用表示。 统一建模方法已经成为以人为中心的感知基础模型的主流,用以进一步减少下游任务中资源密集型的完全微调过程。如图2(d)所示,这些方法遵循统一的编码器-解码器框架,并使用动态查询。UniHCP [Ci et al., 2023]作为首次尝试,采用了任务引导解释器来统一任务头和任务特定的查询,处理五个以人为中心的任务。HQNet [Jin et al., 2024]专注于针对个体的实例级特征,提出了人类查询,以学习统一的全能查询表示,提供了一种单阶段方法来解决多个不同的以人为中心任务。尽管这些工作主要集中在二维人类中心任务上,Hulk [Wang et al., 2023]将范围扩展到同时处理二维视觉、三维视觉、视觉-语言和基于骨架的以人为中心任务。为了解决这些任务,Hulk将输入和输出格式分为四种模态,并开发了特定模态的(去)标记器和模态指示查询,将所有任务统一为模态转换任务。考虑到人机交互,RefHCM [Huang et al., 2024a]将多模态数据转换为语义令牌,将各种感知任务统一为引用任务。

4. 以人为中心的AIGC基础模型

以人为中心的AIGC基础模型是专门在大规模人类数据集上训练或微调的生成模型,旨在创建聚焦于人类元素的内容,如图像、视频和3D虚拟形象。通过优先考虑人类属性的生成保真度,这些模型作为下游任务的适应性基础,能够支持图像编辑、虚拟试穿、3D生成和角色动画等任务。本节将这些模型根据无监督学习和多模态监督学习方法进行分类。

4.1 无监督学习

无监督学习在早期的以人为中心的生成模型中起着至关重要的作用,基于GAN的方法在逼真的人类图像和虚拟形象生成方面引领了进展。具体而言,有两个主要框架:带风格调节的二维GAN和具有神经渲染器的三维感知GAN。 带风格调节的GAN利用一个中间的、解耦的潜在空间,通过首先将随机噪声映射到风格向量,并在生成器的不同层次使用学习到的仿射变换注入风格向量,从而对图像合成过程进行细粒度的控制,如图3(a)所示。这个分层的调节允许对不同尺度的视觉属性进行精细控制。例如,StyleGAN-Human [Fu et al., 2022]使用该框架训练了一系列无条件模型,展示了数据规模、数据分布平衡和人体对齐如何显著提高生成性能,从而为条件应用建立了强大的基础模型。UnitedHuman [Fu et al., 2023]采用多源空间变换器,将多源数据(包括面部、手部、部分身体和全身图像)对齐到统一的空间中,进行更全面的人体建模,并设计了一个连续生成器,合成具有增强细节的连贯高分辨率图像。这些模型作为多种下游应用的多功能预训练基础。它们的良好结构的潜在空间使得(1)通过基于点运动监督优化潜在代码对图像属性进行直观的拖拽操作[Pan et al., 2023],(2)使用重建先验进行3D生成[Xiong et al., 2023],以生成解耦的几何和纹理代码,以及(3)通过将潜在代码与服装特征对齐进行虚拟试穿[Yoshikawa et al., 2023]。 带神经渲染器的GAN将3D表示和神经渲染器集成到前述框架中,以在图像合成过程中强制执行3D几何一致性(见图3(b))。通过利用渲染结果(例如低分辨率图像、深度图或表面法线)来引导生成器,这些模型生成的输出更能反映真实的空间结构,特别适用于创建高保真度的3D虚拟形象。例如,SofGAN [Chen et al., 2022]将3D表示空间解耦为几何和纹理子空间,为相机姿势、面部结构和属性纹理的独立控制提供了强大的基础。AniPortraitGAN [Wu et al., 2023]通过使用SMPL模型和3D可变形模型(3DMM)学习姿势和面部变形,将人体先验知识整合到框架中。该模型在大规模面部图像集上进行训练,其生成器和渲染器可以作为需要高分辨率、可控图像和详细3D几何的任务的基础。类似地,AG3D [Dong et al., 2023]通过加入一个额外的变形器以学习姿势依赖效应,并使用法线估计器进行几何监督,扩展了这一框架,训练了大规模的全身图像,生成高质量的3D人体虚拟形象。这些模型的3D感知生成能力解锁了许多下游任务,包括(1)通过从任意相机轨迹进行渲染生成自由视角视频,(2)通过集成可学习的姿势依赖变形进行姿势重定向,以及(3)通过GAN反转进行单视图3D重建。

4.2 多模态监督学习

最近,扩散模型的进展促进了多模态监督学习方法的发展,这些方法利用大规模配对数据集(如文本-图像或视频-姿势对齐)来精确控制生成过程。通过条件潜在扩散模型和时空扩散变换器架构,最近的工作显著提高了合成的人类图像和视频的质量、一致性和多样性。 条件潜在扩散模型扩展了标准的扩散模型,通过在紧凑的潜在空间中操作并结合外部条件(如文本、姿势或分割图),以引导生成过程(见图3(c))。通过首先将输入编码为较低维度的潜在表示,扩散过程逐渐去噪输出,同时保持提供的条件。该方法提高了效率和可控性,使其成为人类图像合成、姿势引导生成和多模态内容创作等任务的通用框架。具体而言,HumanSD [Ju et al., 2023]提出了一种骨架引导的扩散模型,使用热图引导去噪损失。该模型在2M+的文本-图像-姿势三元组上进行训练,展示了它在各种场景中生成高质量人类图像的基础能力。HyperHuman [Liu et al., 2023]提出了一个统一的框架,通过捕捉多模态数据中外观和结构之间的相关性,生成超逼真的人类图像。具体来说,它引入了一种潜在结构扩散模型,在条件为文本和姿势骨架时,联合去噪深度、表面法线和RGB图像,其中特定模态的分支可以互相补充。最近,CosmicMan [Li et al., 2024b]通过构建三个关键支柱提出了这一模型:一个可扩展的高质量数据生产范式、通过分解注意力重定向框架设计的强大模型,并在下游任务中的实际集成。该结构使CosmicMan能够在各种场景中生成图像,从全身肖像到特写镜头,成为以人为中心的内容生成的多功能基石。 时空扩散变换器通过结合基于变换器的架构,扩展了扩散模型,用于捕捉视频中的空间结构和时间依赖性。通过利用自注意力机制,跨空间维度和时间步长,这一框架(见图3(d))有效地捕捉了长时间范围的时间关系,同时保持空间一致性,适用于以人为中心的视频生成任务。因此,它特别适合角色动画、视频操作和4D生成等任务。一项代表性工作是Human4DiT [Shao et al., 2024],该工作引入了一个分层的4D扩散变换器(DiT),用于从单张图像生成高质量的、360度时空一致的人类视频。该模型在一个涵盖图像、视频、多视角捕捉和4D影像的多源数据集上进行训练,因而能够在多个视角、时间和空间上因子化自注意力,并准确注入条件,成功处理复杂的运动和视角变化。基于该框架,OmniHuman [Lin et al., 2025]提出了一个可扩展的多模态条件下的人类视频生成模型,能够根据单张图像和运动信号(如音频、视频或两者)生成视频。通过在训练期间结合运动相关条件,减少了数据稀缺性,并在多种场景下实现了逼真的视频合成,包括讲话、唱歌、变化的身体组成和人机交互。值得注意的是,预训练的人类中心扩散模型正在越来越多地作为广泛应用的多功能基础。例如,它们可以(1)通过指令-图像对进行微调,实现基于文本的图像编辑[Brooks et al., 2023],(2)通过将额外的分支合并到角色的运动中来进行角色动画[Hu, 2024],(3)通过将分类器自由引导拆分为人物、服装和姿势条件来进行虚拟试穿[Karras et al., 2024],以及(4)通过在多个视角下反复应用得分蒸馏采样来扩展到3D/4D人类生成[Kolotouros et al., 2023]。

5. 以人为中心的统一感知与生成基础模型

近年来,以人为中心的基础模型作为一种变革性的方式,出现了用于统一感知和生成任务,提供了一个全面的框架来理解和合成人的行为、动作、情感和意图。通过将多模态的以人为中心的线索——如视觉、听觉、文本、情感和动作数据——整合到大型语言模型(LLMs)和多模态大型语言模型(MLLMs)中,这些模型能够促进更加丰富、具有上下文感知的人的互动表示。这些模型可以根据如何将多模态的人类中心信号整合到LLMs和MLLMs中,分为两种主要范式——固定词汇和扩展词汇。

5.1 固定词汇

固定词汇模型通过引入特定模态的投影层,将以人为中心的信号映射到LLMs的特征空间中,或者直接采用现成的工具和提示工程技术来增强LLMs。在这些方法中,CoMo [Huang et al., 2024b]统一了基于文本的人体动作生成、细粒度动作生成和动作编辑。具体来说,它通过自回归地生成可解释的姿势代码序列,基于LLMs生成的高层文本描述和细粒度的、针对身体部位的描述。ChatPose [Feng et al., 2024]引入LLMs以推进与姿势相关的任务,力图开发一个多功能的姿势生成器。通过将图像解释、世界知识和肢体语言理解整合到基础LLMs中,ChatPose增强了其从图像和文本描述中理解和推理3D人体姿势的能力。进一步地,ChatHuman [Lin et al., 2024]提出了一种集成了22个领域特定的以人为中心工具的多模态LLM,增强了其推理与人类相关任务的能力。借助学术出版物和检索增强生成模型,ChatHuman生成了处理新引入工具的上下文学习示例。在其他以人为中心的任务中,基础模型也取得了显著进展。例如,ChatGarment [Bian et al., 2024]利用大规模视觉-语言模型(VLMs)来自动化估计、合成和编辑来自图像或文本描述的3D服装。类似地,FaceGPT [Wang et al., 2024a]将3D可变形面部模型(3DMM)[Blanz和Vetter, 2023]的参数集成到VLMs的令牌空间中,实现了从文本和视觉输入自监督生成3D面部模型。

5.2 扩展词汇

扩展词汇模型旨在通过显式扩展LLMs [Touvron et al., 2023; Achiam et al., 2023]和MLLMs [Liu et al., 2024; Li et al., 2023]的词汇和嵌入空间,以适应以人为中心的多模态信号。通过将丰富的人类中心表示——如姿势参数、SMPL表示或动作序列——与LLMs的原始词汇对齐,扩展词汇模型使基础LLMs和MLLMs能够有效地处理新的人类中心任务,包括生成、编辑和理解来自文本描述、图像和3D模态的人体姿势。最近的研究[Wu et al., 2024; Wang et al., 2024b; Jiang et al., 2023; Luo et al., 2024; Zhou et al., 2024]将动作模态纳入基础LLMs的文本空间,实现在动作与自然语言之间的复杂关系的整体表示。MotionGPT [Jiang et al., 2023]引入了一种统一的动作-语言模型,用于处理多个与动作相关的任务。它首先将连续动作离散化为离散的语义令牌,这些令牌可以解释为“肢体语言”,然后将其扩展到LLM的词汇中。通过预训练对齐和提示调优阶段,MotionGPT展示了其在各种人类动作理解和生成任务中的强大泛化能力。在MotionGPT [Jiang et al., 2023]的基础上,AvatarGPT [Zhou et al., 2024]提出了一个一体化结构,用于动作理解、规划、生成以及动作之间的合成。M3-GPT [Luo et al., 2024]进一步将动作、音乐和语言嵌入到单一词汇中,并包括音乐与舞蹈、舞蹈与音乐之间的任务。这种统一的方法通过合成人类多模态行为并弥合听觉、视觉和语言模态之间的差距,推进了以人为中心的任务。虽然这些方法大多限于单人动作,MotionLLM [Wu et al., 2024]提出了一个简单而多功能的框架,能够处理单人和多人动作生成以及动作字幕,通过微调预训练的LLMs。MotionGPT-2 [Wang et al., 2024b]开发了一个通用的大型动作语言模型(LMLM),它超越了当前的解决方案,处理在MotionX [Lin et al., 2023]基准上的挑战性3D整体动作生成。然而,这些方法在与姿势相关的编辑和理解方面存在困难。UniPose [Li et al., 2024c]利用LLMs的生成能力统一了所有姿势相关任务,以理解、生成和编辑跨多种模态的人体姿势,包括图像、文本和3D SMPL表示。作为解决方案,LOM [Chen et al., 2024]通过MLLMs统一了语言和非语言,处理人类动作的理解和生成,灵活地将文本、语音、动作或它们的任何组合作为输入。它训练了一个组合体动作的VQ-VAE,将动作标记为离散的部分动作令牌,统一了特定模态的词汇(音频和文本)。 6. 以人为中心的代理基础模型

超越理解和生成自身的人类,以人为中心的代理基础模型通常处理多模态输入(例如,主体影像、触觉、声音和自然语言任务描述),重点关注人类对环境的反应和互动,同时受到其物理属性的约束。通过利用互联网规模的多模态数据集,以人为中心的代理基础模型有望跨多种任务实现泛化,并为人机交互提供自然界面,这对现实世界的机器人应用至关重要。

6.1 基于视觉-语言的模型

基于视觉-语言的模型是构建类人系统基础模型的主要方法,通过将预训练的视觉-语言模型(VLMs)与传感运动控制策略结合起来。如图5(a)所示,这些方法利用视觉和语言模态的优势,将高级语义理解与低级物理动作连接起来。在这些框架中,视觉输入通过预训练的图像编码器处理,而自然语言命令则通过预训练的文本编码器进行标记化。提取的语义特征随后与类人机器人特定的控制策略对齐,从而实现语言和视觉线索到精确运动控制的转换。这种跨模态对齐不仅促进了语言到动作的映射,还增强了类人机器人执行复杂多步任务的能力。最近的研究致力于将这些视觉-语言模型适应类人机器人面临的独特挑战。 notable的例子包括HumanVLA [Xu et al., 2024]和SuperPADL [Juravsky et al., 2024],它们将类人控制策略与预训练VLM的潜在空间对齐。这些方法展示了通过图像和语言输入赋予类人机器人复杂技能的潜力,为在动态环境中更先进、自然的人机交互铺平了道路。

6.2 基于视觉-语言-动作的模型

视觉-语言-动作(VLA)模型作为一种有前景的方法,正在被用来构建类人机器人基础模型,通过将视觉、语言和动作模态统一在一个框架内。如图5(b)所示,这些方法将机器人数据——包括观察数据和动作——视为预训练语言模型词汇中的令牌,从而实现与已建立的视觉-语言模型的直接微调或共同训练。与传统方法依赖于分别可训练的低级控制策略不同,VLA模型直接生成动作作为令牌序列, effectively地将高级语义推理与运动命令生成结合起来。这种统一的令牌化框架使得模型能够生成广泛的技能,同时保持强大的语言和视觉理解,从而增强其跨多任务的泛化能力。然而,将动作表示为字符串令牌可能对于像类人机器人这样具有高自由度的系统效率较低,因为这些系统的运动命令复杂度显著更高。尽管存在潜在的好处,将VLA范式应用于类人机器人仍然是一个尚未充分探索的领域。为了弥补这一空白,最近像NVIDIA的Project GR00T [Dong et al., 2024]等计划已经宣布。GR00T基础模型旨在利用来自互联网、模拟数据到真实机器人交互的多种数据来源,促进可扩展的训练,并实现复杂类人任务的强大跨模态性能。

7. 挑战与未来方向

数据:与普通图像和视频不同,收集高质量的以人为中心的数据要敏感、困难且昂贵。这种情况不可避免地导致数据量与数据质量之间的权衡。此外,人类外貌、行为和情境的广泛变异性使得获取全面的数据集变得非常困难,限制了数据驱动的人类中心基础模型的泛化能力。 表征:人类的外貌和行为需要一个整体的理解,涉及身体、面部和手部等多个方面,但现有的基础模型没有同时捕捉这些方面。认识到这些元素是一个复杂系统的密切相关部分,目前在统一建模框架方面仍然存在显著差距。未来的研究应专注于开发创新的多模态架构和可扩展的数据集,弥合全球性和细粒度的人类动态表征,最终促进数字人类合成、互动机器人学和个性化人机交互等应用的提升。 交互性:尽管在理解和生成孤立的人类属性(如外貌、情感和身份)方面取得了显著进展,但目前的以人为中心的基础模型在捕捉现实场景中交互和情境动态的复杂性方面仍然面临挑战。大多数方法仅限于静态或孤立的表征,这限制了它们建模个体与其环境之间细微相互依赖关系的能力。未来的研究应专注于开发统一的框架,将高级语义推理与精细的行为合成无缝集成,使模型能够适应动态、多主体的情境。 伦理问题:伦理问题在应用以人为中心的基础模型时至关重要,尤其是在敏感领域和隐私问题上。在敏感领域,模型的输出绝不应替代人类专家的专业判断。此外,应该结合隐私增强技术来开发以人为中心的基础模型,确保模型从数据中学习强大的表征,同时使得难以识别个体级的隐私信息。此外,所有训练数据应采取匿名化处理,以避免隐私泄露。

成为VIP会员查看完整内容
22

相关内容

大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
生成式人工智能的扩散模型概述
专知会员服务
62+阅读 · 2024年12月8日
大规模语言模型的个性化:综述
专知会员服务
40+阅读 · 2024年11月4日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
55+阅读 · 2024年5月28日
《大型语言模型自然语言生成评估》综述
专知会员服务
70+阅读 · 2024年1月20日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
71+阅读 · 2023年9月6日
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
53+阅读 · 2022年10月16日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
面向多智能体博弈对抗的对手建模框架
专知
13+阅读 · 2022年9月28日
初学者的 Keras:实现卷积神经网络
Python程序员
24+阅读 · 2019年9月8日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
实战 | 基于深度学习模型VGG的图像识别(附代码)
七月在线实验室
12+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
72+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
生成式人工智能的扩散模型概述
专知会员服务
62+阅读 · 2024年12月8日
大规模语言模型的个性化:综述
专知会员服务
40+阅读 · 2024年11月4日
从数据中心视角看多模态大型语言模型的综述
专知会员服务
55+阅读 · 2024年5月28日
《大型语言模型自然语言生成评估》综述
专知会员服务
70+阅读 · 2024年1月20日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
71+阅读 · 2023年9月6日
面向自然语言处理的知识图谱嵌入:从理论到实践
专知会员服务
53+阅读 · 2022年10月16日
【ICLR2021】对未标记数据进行深度网络自训练的理论分析
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
国家自然科学基金
14+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员