数字人包含哪些生成式AI技术？上交最新「基于神经网络的生成式三维数字人研究综述：表示、渲染与学习」

随着人工智能技术的高速发展, 计算机视觉与图形学等相关学科的交叉融合掀起了一场数字人生成技术的新革命, 人类进入 “元宇宙” 等数字空间的梦想正逐渐变为现实. 面对大规模三维数字人的生产需求, 基于传统图形学的建模过程繁琐, 周期冗长, 阻碍了虚拟数字人的普及和应用, 而利用生成式人工智能技术产生高拟真, 规模化的虚拟数字人正逐渐成为研究热点. 为了深入了解三维数字人技术的研究现状与挑战, 本文从生成式模型的视角对数字人技术进行了系统性梳理, 并总结了其中的三个关键步骤：表示, 渲染与学习. 随后, 对显式及隐式的表示方法进行总结, 对传统渲染与神经网络渲染的成像方式进行归纳, 并概括了相应的模型学习方法. 最后, 本文对三维数字人的典型应用进行分析, 并对当前挑战与未来发展方向进行总结和展望.

1. 引言

元宇宙” 的概念起源于 1992 年的科幻小说雪崩, 在这部小说中, 人类可以通过虚拟化身进入数字空间, 并相互交流. 30 年之后的今天, 随着计算机视觉与图形学技术的发展, “元宇宙” 已经走到了互联网数字经济发展的最前沿, 不再是小说中遥不可及的梦想. 虚拟数字人作为 “元宇宙” 的 “原住民”, 是 “元宇宙” 技术的核心与基石. 为了在 “元宇宙” 中产生沉浸式的体验, 虚拟数字人不仅要有逼真的外观, 也要实现肢体动作和语言表达的流畅自然. 同时, 由于人类天然拥有社会属性, 交互能力将是数字人在 “元宇宙” 中的重要属性. 因此, 大规模生成高质量虚拟数字人化身, 既是人类进入 “元宇宙” 等虚拟世界的基础, 也是人类进一步探索更广阔的数字空间的迫切需求.

数字人的概念起源于医学领域, 可追溯到 1989 年美国国家医学图书馆的 “可视人体” 计划 1) , 旨在实现人体的解剖结构的三维显示. 本文所讨论的数字人技术则更为宽泛, 指代运用数字技术创造的, 拥有数字化表现形式的虚拟人物. 数字人可以以二维或者三维形式呈现. 早期的虚拟数字人形象以平面动漫偶像为主, 并不涉及三维建模等复杂流程, 因此形象的立体感与真实度受到限制. 随着计算机图形学技术的发展, 三维建模与渲染技术快速进步, 引领了数字人的研究趋势. 一些顶尖的科研机构和商业团队已经能够生产高拟真的虚拟数字人, 并成功应用于虚拟偶像生成 2) , 影视角色制作 3) , 真人化身重建 4)中, 如图 1所示. 但是, 基于传统图形学的三维数字人的建模过程包括形象采集, 模型制作, 纹理贴图, 动作采集与驱动等复杂流程, 依赖于专业的感知设备和精细的人力工作, 周期冗长且只能定制化生产, 无法满足大规模数字人的生产需求, 这些限制阻碍了数字人的普及和应用. 近年来, 随着人工智能和神经网络的发展, 生成式人工智能在图像生成, 语言交互等方面取得了巨大进展 [2,3] . 生成式数字人指使用生成式人工智能技术创造数字人的方法, 主要是以数据驱动的方式学习真实的数据分布, 对数据分布进行采样以生成新的样本表示, 并对数据表示进行渲染从而呈现出高度真实的三维数字人. 生成式人工智能技术极大简化了三维数字人建模流程, 提升了模型的真实感, 因此展现出了巨大的发展潜力.

本文从生成式模型的视角对三维数字人技术进行梳理, 首先整体介绍生成式三维数字人的建模流程, 分解出其中的三个主要步骤 (第 2 节). 然后分别介绍数字人表示方法 (第 3 节), 数字人渲染方法 (第 4 节), 以及模型的学习方式 (第 5 节). 之后列举了数字人的一些典型应用 (第 6 节), 最后指出现有挑战并对未来进行展望 (第 7 节). 已有一些综述论文对数字人的某类建模或渲染方法进行总结, 如 3DMM 模型 [4] , 人脸重建 [5] , 人体重建 [6,7] , 三维渲染 [8,9] 等, 与这些论文不同, 本文旨在从生成式模型的视角对三维数字人 (人脸及人体) 技术进行全面回顾, 重点介绍基于神经网络的数字人研究方法, 梳理其技术发展趋势及典型应用场景, 让读者能够较为全面地了解数字人的生成技术. 值得注意的是, 除了人脸与人体之外, 头发, 手, 服饰, 骨架等模型同样也属于数字人的研究范畴, 但并非本文的主要关注对象, 相关内容将在 7.1 节和 7.2 节予以讨论。

2 生成式三维数字人建模流程

构建一个完整的生成式三维数字人模型主要包括三个步骤, 分别为模型表示, 渲染与学习, 如图 2 所示, 本文后续章节使用 “建模” 一词来特指这一过程. 首先, 需要确定三维数字人模型的表示方式, 常见的表示方式可以分为显式表示和隐式表示两种形式. 其中, 显式表示一般直接给出满足条件的所有元素的集合, 如点云包含三维空间中点的位置, 而多边形网格则包含顶点位置及其连接关系等信息. 由于传统的渲染管线已经能够成熟地对数字人的显式表示 (尤其是基于多边形网格的表示) 进行高效处理, 因此, 在游戏, 影视制作等工业应用中, 主要使用显式表示模型. 然而, 显式表示的精细程度会受到模型分辨率的限制, 为了产生高拟真的数字人, 需要大量元素来逼近模型的细节, 从而造成模型复杂度的上升. 而与此对应的隐式表示仅需给出对于三维空间的某种约束, 如符号距离函数, 水平集等. 随着深度学习的发展, 越来越多的方法使用神经网络来逼近隐式函数, 如深度符号距离函数 [10] , 神经辐射场 [11] 等, 并由此恢复出数字人的精细几何与纹理. 隐式表示作为一种更加灵活的表示方式, 使得数字人模型能够突破空间分辨率的限制, 因此, 隐式表示正逐渐成为数字人研究的热点.

第二个重要步骤是渲染, 表示从三维数字人模型到二维图像的映射过程, 该步骤直接决定了数字人呈现的视觉效果. 在真实世界中, 光线在物体表面发生反射进入人眼, 形成肉眼观察到的图像. 由于真实世界的复杂性, 难以对每一条光线进行精确追踪, 因此, 图形学中的渲染过程一般是对物理世界成像原理的模拟和简化. 以人脸为例, 一种经典的处理方式是将人脸分解为本色图 (albedo) 和反射图. 其中本色图代表皮肤表面的颜色材质, 反射图代表光线在人脸表面反射之后造成的效果, 由人脸表面法向方向与光照共同决定, 这种简化被称为朗伯反射模型 (Lambertian Reflectance Model)[12,13] . 后续一些方法在此基础上加入了粗糙度 (roughness) 与高光 (specular) 分量, 提升了渲染结果的质量. 图形学中渲染过程的简化虽然降低了计算复杂度, 但是同时也造成了渲染质量的下降, 使其难以生成高拟真的数字人形象. 而与此对应的神经网络渲染技术将数据驱动的神经网络与物理规律约束的渲染管线相结合, 极大的提升了渲染的真实感. 近年来, 神经网络渲染技术已经成功应用到数字人生成流程中, 使生成高度拟真的三维数字人成为可能.

最后, 生成式三维数字人模型需要对数据进行学习, 不同的数据类型会造成学习方式的差异. 如使用三维扫描数据, 对于网格等显式表示模型, 一般需要先将扫描数据与模型进行配准, 生成一致的拓扑结构, 然后进行学习. 而对于隐式表示模型, 则一般可以直接从原始扫描数据进行学习. 由于三维扫描依赖专业的采集设备, 同时采集成本高昂, 因此难以构建大规模的扫描数据集, 覆盖不同人种, 年龄, 性别, 表情, 姿态的变化. 因此, 从有限小规模扫描数据中学习到的数字人模型难以精确泛化到现实世界中复杂多变的真人数据. 而与此对应的二维图像数据采集更为方便, 同时能够保证数据规模与多样性. 因此, 如何从二维图像数据中学习三维数字人模型也是一个重要研究方向. 为了解决二维图像缺乏三维几何信息的局限性, 现有方法主要从多视角学习, 结合三维几何先验, 自监督学习等方式为二维图像添加三维几何或语义约束, 并使用神经网络学习数字人的生成模型.

3 生成式三维数字人模型表示

数字人可以视为现实人类在 “元宇宙” 中的投射, 它不仅需要对人类外观进行真实的模拟, 也需要逼近真人的行为动作以及表情神态. 为此, 作为数字人的基础, 三维数字人模型利用显式或隐式表示, 尽可能贴近真人的外观, 并且建立多种多样符合人类行为的物理属性. 本章讨论三维数字人模型的表示方法, 首先介绍基于显式表示的数字人模型, 包含人脸和人体的表示方法；然后介绍基于隐式表示的数字人模型.

3.1 基于显式表示的数字人模型

显式表示是三维物体的一类常见表示方法, 即物体的三维结构被直接给出或通过参数映射的方式给出, 具体表现形式包括点云, 多边形网格, 参数曲面函数等. 基于显式表示的数字人模型通常使用多边形网格进行表示, 利用大量扫描数据通过统计学或深度学习的方法得到先验模型, 从而通过低维变量控制复杂的三维数字人, 这为高效, 规模化地生成三维数字人奠定了基础, 如图 3 所示. 人脸和人体模型是数字人领域的两大主流研究方向, 由于人脸和人体具备不同的空间结构以及形变方式, 因此本节将分别介绍这两种显式表示方法.

3.2 基于隐式表示的数字人模型

显式表示使用一系列的离散单元来逼近三维物体, 然而, 在真实世界中, 数据是 (近似) 连续的, 为了尽可能地逼近真实数据, 需要不断增大显式模型的分辨率, 这将造成巨大的计算开销. 而与此对应的隐式表示使用一个连续函数来表示数据, 因此隐式表示的复杂度不再取决于数据的空间分辨率, 这为三维物体提供了一种灵活轻便的表示形式. 然而物体是复杂多样的, 通常难以用明确的函数对其进行准确的表征, 因而研究者们常采用深度神经网络来逼近该复杂函数, 这类表示方法也被称作 “隐式神经表示”. 在隐式神经表示中, 隐式的连续函数通常采用多层感知机 (MLP) 进行参数化逼近, 以空间三维坐标 p = (x, y, z) ∈ R 3 作为输入, 输出 p 点具有物理意义的属性 fim(p), 形成了空间中的隐式场：F : p 7−→ fim(p), (4) 其中, fim(p) 通常表示三维空间点的几何或纹理属性, 例如 DeepSDF[10] 采用的符号距离函数 (Signed Distance Function, SDF), OccNet [58] 采用的的占据场 (Occupancy Field) 以及 NeRF [11] 提出的神经辐射场 (体密度值和颜色值的表示) 等. 此后的一些工作将隐式表示引入了生成模型, 逐步建立了具有可控性的隐式数字人生成模型. 通过隐式表示作为媒介, 生成式数字人模型学习数字人特征的全局或局部分布, 可以分为两类, 一类是基于生成对抗网络 [59] (Generative Adversarial Network, GAN) 的方法, 另一类是基于可控形变场的方法, 如图 4 所示.

3.3 显式表示和隐式表示对比

基于显式表示的数字人模型相对较为直观, 常通过低维参数对模型进行控制, 这些参数通常与实际的物理意义相对应, 能够便捷, 高效地生成三维数字人. 此外, 显式表示的模型较为成熟, 更容易与现有的图形学渲染管线兼容, 应用更加广泛. 但是显式表示的模型在精细度方面受分辨率影响, 当模型分辨率提高时, 显式表示的复杂度也会相应大幅度增加, 对内存造成极大的负担. 相比显式表示, 隐式表示的数字人模型最独特的优点是模型不再与空间分辨率耦合. 由于隐式表示是连续函数, 因而数字人模型可以以任意空间分辨率进行采样, 即 “无限分辨率”. 隐式模型的方法在面对复杂场景时存在表示不够精细, 渲染速度慢等缺点, 但对于生成式数字人的任务来说, 隐式方法面对的是一个具有明确拓扑结构的几何体, 因而利用显式的拓扑结构来约束和优化隐式表示将有望规避这些缺点.

4 生成式三维数字人渲染

渲染是指将三维模型根据观察条件 (方向, 距离等) 进行采样计算并生成二维图像的过程, 具体计算方法由渲染目标三维模型的表示, 存储形式决定, 因此数字人渲染可根据其表示形式采用与之对应的渲染方法. 基于第 3 节的讨论, 三维数字人模型的表示形式主要包括以多边形网格, 点云, 体素及参数化表面函数等显式格式存储记录的三维数字人, 和以神经辐射场, 隐式表面函数为代表的隐式表示存储的三维数字人. 由于二者的表示形式与性质的差异, 其渲染方法也有所不同. 传统图形学渲染方式主要针对显式记录的三维模型, 该类三维模型广泛应用于各类商用软件以及影视游戏内容创作中. 而神经渲染则主要针对隐式表示的数字人, 根据给定的渲染参数通过对深度神经网络中记录的三维数字人模型进行采样计算, 将最终结果以图像或视频形式进行呈现. 本节将对这两类渲染方式进行讨论.

5 生成式三维数字人模型学习

本节讨论生成式三维数字人的模型学习方法, 完成生成式三维数字人的建模流程. 生成式数字人模型学习包括对第 3 节表示参数和第 4 节渲染参数的学习, 这些参数将定义一个生成式数字人模型. 生成式数字人模型首先从二维或三维数据中学习三维数字人的分布规律, 再通过采样或渲染等方式实现数字人的生成, 数据类型与模型表示方式的不同会造成学习方法的差异. 本节首先讨论数据集的获取与处理方式, 然后分别介绍生成式三维数字人显式表示模型与隐式表示模型的学习方法, 如图 7 所示

6 生成式三维数字人的应用

经过完整的生成式三维数字人建模流程之后, 生成模型将学习到数字人的先验信息, 针对模型进行相应微调即可应用到下游任务. 在虚拟数字人的应用中, 虚拟数字人拥有人的形态, 能够表现人的行为, 并且能与外界环境进行交互是三项极为重要的特征. 因此数字人的重建, 驱动以及交互是当前虚拟数字人的重要研究方向, 本节主要介绍这三方面的应用.

6.1 数字人重建

数字人重建是指从图像或视频中恢复人体和人脸的三维几何形状以及对应的外观信息, 以实现真人与虚拟数字人的一对一的数字化映射. 数字人重建是连通真实世界和数字世界的桥梁, 也是实现数字人驱动与交互的基础. 生成式数字人模型为重建任务提供了有效的先验约束, 不仅有助于生成合理的重建结果, 也减少了对于训练标签的要求, 降低了重建成本. 根据数字人的不同表示方法, 本小节对显式重建和隐式重建两类方法进行梳理, 如图 8 所示.

6.2 数字人驱动

数字人的重建任务连接了真实世界和数字世界, 实现了真人向数字人的静态迁移, 但是要将数字人模型落实到电影, 游戏等具体的应用场景, 则需要根据真人的行为驱动数字人模型产生相应的变化. 数字人的驱动为数字世界搭建了从静态向动态跨越的阶梯, 也为数字人模型打开了广阔的应用空间. 根据表示方法的不同, 本文对显式和隐式表示模型的驱动方法进行梳理

6.3 数字人交互

人类天然具备社交属性, 将数字人作为一个独立的个体显然无法满足在电影, 游戏以及 “元宇宙” 这类复杂场景中的应用, 因此交互技术是数字人研究领域的一个重要问题. 本节从数字人与环境的交互以及数字人之间的交互两个方向对相关工作进行梳理.

7 现有挑战总结与未来发展趋势展望

7.1 生成式数字人的基础理论 7.2 生成式数字人的细节表示 7.3 高效推理与训练 7.4 质量评价系统 7.5 工程扩展 7.6 法律与伦理问题

8. 总结

本文对生成式数字人这一研究热点进行了较为全面的总结, 介绍了数字人建模过程中的主要步骤, 比较了显式与隐式表示这两种主流的模型表示方式, 介绍了传统渲染与神经网络渲染的具体流程, 归纳了基于不同数据表示形式与渲染方式的学习方法. 随后, 细致地讨论了生成式数字人的三大应用, 包括重建, 驱动与交互. 本文最后对生成式数字人所面临的现实挑战进行了讨论, 并对未来发展趋势进行了展望. 可以看出, 生成式数字人的表示形式正从显式表示向隐式表示的方向发展, 渲染方式正从传统渲染方法过渡到神经网络渲染, 学习方法越来越倾向自监督, 对抗学习等弱标注场景. 现有数字人技术离实现 “元宇宙” 中高度真实, 自然交互的虚拟形象仍存在巨大差距, 本综述希望能帮助读者快速梳理生成式数字人的技术路径与发展趋势, 并启发后续的研究

成为VIP会员查看完整内容