机器之心专栏
想要个性化设计高真实感的三维立体人脸,却发现自己并不熟悉专业的设计软件?三维人脸编辑方法 NeRFFaceEditing 提供了新的解决方案,即使不会三维建模,也能自由编辑高真实感的立体人脸,建模元宇宙中的个性化数字肖像!
NeRFFaceEditing 由中科院计算所和香港城市大学的研究人员合作完成,相关技术论文在计算机图形学顶级会议 ACM SIGGRAPH Asia 2022 上发表。
NeRFFaceEditing 将二维的语义掩码作为三维几何编辑的桥梁,用户在一个视角下进行的语义编辑可以传播到整个三维人脸的几何,并保持材质不变。进一步,给定表示参考风格的图像,用户可以轻松的更改整个三维人脸的材质风格,并保持几何不变。
基于该方法的三维人脸编辑系统,即使用户不熟悉专业的三维设计,也可以轻松进行个性化的人脸设计,自定义人脸形状和外观。先来看两个使用 NeRFFaceEditing 的惊艳效果!
图 1 几何编辑效果:二维语义掩码上的编辑传播到整个三维几何空间
图 2 风格迁移效果:将给定风格作用到整个人脸三维空间上而保持几何不变
Part I 背景
近些年,随着神经辐射场 [1] 与对抗式生成网络 [2] 的结合,各种高质量、快速渲染的三维人脸生成网络被提出,其中包括 EG3D [3]。
图 3 EG3D 的不同视角的生成效果与几何表示
该方法的三平面表示结合了传统的二维生成对抗网络和最新的三维隐式表征,因此继承了 StyleGAN [4] 的强大生成能力和神经辐射场的表征能力。但是,这些生成模型并不能对人脸的几何和材质进行解耦控制,而解耦控制几何和材质是三维角色设计等应用不可或缺的功能。
已有工作,如 DeepFaceDrawing [5]、DeepFaceEditing [6] 可以实现基于线稿的几何和材质的解耦控制及二维人脸图像的生成与编辑。DeepFaceVideoEditing [7] 则将线稿编辑应用到人脸视频,能在时序上生成丰富的编辑效果。
但是,图像的解耦与编辑方法,很难直接应用至三维空间。而现有的三维人脸的几何和材质解耦方法往往需要重新训练网络参数,而且使用的空间表示方法有较大的局限性,缺少三平面表示的良好性质。为了解决上述的问题,NeRFFaceEditing 在三平面表示的三维生成对抗网络的预训练模型参数的基础上,利用任意视角的二维语义掩码作为媒介,实现对三维人脸进行几何编辑和对材质的解耦控制。
Part 2 NeRFFaceEditing 的算法原理
在三平面生成器生成出三平面之后,启发自 AdaIN [8],即对于二维的特征图(Feature Map),它的统计数据可以表示它的风格,NeRFFaceEditing 将三平面分解为表达空间上不变的高层次材质特征的均值和标准差 (a),以及表达空间上变化的几何特征的标准化的三平面。结合标准化的三平面与分解出的材质特征 (a) 可以还原出原本的三平面。因此,如果给定不同的材质特征,即可赋予同一几何不同的材质。
更进一步,为了实现对于几何和材质的解耦控制,NeRFFaceEditing 将原始的单个解码器分解为了几何解码器和材质解码器。几何解码器输入从标准化三平面采样得到的特征,预测密度和语义标签,用于表达三维人脸的几何和语义掩码体(Volume)。而几何特征与材质特征 (a) 通过可控制的材质模块(CAM)模块组合后,再从中采样特征输入材质解码器预测颜色。最后通过体渲染,得到某一视角下的人脸图像与对应的语义掩码。而在给定一个不同的材质特征 (b) 的情况下,几何特征与材质特征 (b) 通过 CAM 模块和体渲染可以得到另一张几何不变而材质改变的人脸图像。整体网络结构如下图所示:
图 4 NeRFFaceEditing 的网络架构
除此之外,为了约束拥有同一材质特征,但几何不同的样本渲染结果在材质上相似,NeRFFaceEditing 利用生成好的语义掩码,使用直方图特征来分别表示这些材质特征相同,几何不同的样本不同脸部组成部分,例如头发、皮肤等,在颜色上的分布。然后优化这些样本在各个组成部分上颜色分布的距离和。如下图所示:
图 5 材质相似约束训练策略
Part 3 效果展示与实验对比
使用 NeRFFaceEditing,可以借助二维的语义掩码对三维人脸空间进行几何编辑:
图 6 三维人脸几何编辑
除此之外,还可以基于参考图片,进行三维一致的三维空间内材质风格迁移:
图 7 三维人脸风格迁移
在此基础上,可以实现解耦的人脸插值变形应用,如下图以左上角和右下角作为起止点,对相机、几何、材质进行线性插值:
图 8 解耦人脸变形效果展示
借助 PTI [9] 将真实图像反投影到 NeRFFaceEditing 的隐空间,也可以实现对于真实图像的编辑和风格迁移。借此,NeRFFaceEditing 也与其他可以控制视角的对人脸进行编辑的开源方法,即 SofGAN [10] 进行了比较,证明了方法的优越性。
图 9 真实图像三维几何编辑的例子。可以看到 NeRFFaceEditing 的真实性优于 SofGAN,而且 SofGAN 在其他视角上对于身份有一定的改变。
图 10 真实图像风格迁移的例子。可以看到 SofGAN 有一定的瑕疵,而且在身份上有一定变化。
Part 4 结语与致谢
数字内容生成在工业制作和数字媒体领域有着广泛的应用,尤其是虚拟数字人的生成与编辑,在近期受到了广泛的关注,而三维人脸几何与材质的解耦编辑就是在个性化塑造真实的虚拟形象上一种可能的解决手段。
NeRFFaceEditing 系统,通过对三维人脸生成网络进行解耦设计,可以将用户在二维视角上对于语义掩码的修改,转变为对于整个三维空间的几何修改,并且保证材质不改变。除此之外,借助对于风格迁移效果强化的训练策略,可以实现有效的三维空间内材质风格迁移。NeRFFaceEditing 的论文已经被计算机图形学顶级会议 ACM SIGGRAPH ASIA 2022 录用。
该项目研究团队包括中科院计算所菁英班本科生同学蒋楷文(第一作者),高林副研究员(本文通讯作者)、陈姝宇博士和香港城市大学傅红波教授等,有关论文的更多细节,请浏览项目主页:
http://geometrylearning.com/NeRFFaceEditing/
引用
1. Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. In European conference on computer vision (pp. 405-421). Springer, Cham.
2. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Advances in neural information processing systems, 27.
3. Eric R. Chan, Connor Z. Lin, Matthew A. Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas Guibas, and Jonathan Tremblay. Efficient geometry-aware 3D generative adversarial networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 16123-16133. 2022.
4. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 8110-8119. 2020.
5. Shu-Yu Chen, Wanchao Su, Lin Gao, Shihong Xia, and Hongbo Fu. DeepFaceDrawing: Deep generation of face images from sketches. ACM Transactions on Graphics, Vol. 39, No. 4, 2020, 72:1-72:16.
6. Shu-Yu Chen, Feng-Lin Liu, Yu-Kun Lai, Paul L. Rosin, Chunpeng Li, Hongbo Fu, and Lin Gao. DeepFaceEditing: Deep Face Generation and Editing with Disentangled Geometry and Appearance Control. ACM Transactions on Graphics, Vol. 40, No. 4, 2021, 90:1–90:15.
7. Feng-Lin Liu, Shu-Yu Chen, Yukun Lai, Chunpeng Li, Yue-Ren Jiang, Hongbo Fu, and Lin Gao. DeepFaceVideoEditing: Sketch-based deep editing of face videos. ACM Transactions on Graphics, Vol. 41, No. 4, 2022, 167:1-167:16.
8. Xun Huang, and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, pp. 1501-1510. 2017.
9. Daniel Roich, Ron Mokady, Amit H. Bermano, and Daniel Cohen-Or. Pivotal tuning for latent-based editing of real images. ACM Transactions on Graphics, Vol. 42, No. 1, 2023, 6:1–6:13.
10. Anpei Chen, Ruiyang Liu, Ling Xie, Zhang Chen, Hao Su, and Jingyi Yu. Sofgan: A portrait image generator with dynamic styling. ACM Transactions on Graphics, Vol. 41, No. 1, 2022, 1:1-1:26.
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com