©作者 | 人脸人体重建
来源 | 人脸人体重建
论文作者:
论文链接:
代码链接:
项目网站:
3D 人脸重建历经多年发展,不同的重建方案层出不穷,然而对于不同方法重建结果的定量评价却存在明显的问题和缺陷,即客观指标与人的主观感受难以相符。
回顾先前的 3D 人脸重建评价方案,基于 3D 顶点的评价流程通常借助关键点进行 scale 和 pose 的预对齐,并通过 Iterative Closest Point (ICP) 算法进行微调使得 predicted mesh 和 ground-truth scan 对齐,再通过两者的最近邻点建立顶点的对应关系,并计算这组对应关系的 NMSE/RMSE 作为指标。
本文首先分析这样的评价流程存在的问题,揭示了先前的评价方案无法与主观评价相吻合的重要原因:即全局的刚性对齐会受到脸部局部区域重建质量的影响,并且根据单方向距离(最近邻点)建立的对应关系无法保证顶点之间语义信息的一致性。所以我们构建了 REALY benchmark,设计了新的 3D 人脸重建评价方案,并对先前的模型和 3DMM 进行了重新的评价,验证了我们的评价流程的合理性。
此外,在构建新的 benchmark 的过程中,我们通过整合约 2000 个高质量的人脸 scan 数据,进行拓扑结构的统一,从而构建了一个新的具有高表达能力的 3DMM,其拓扑结构、基的维度都要优于先前的 3DMM,并在 RGB-(D) Fitting 的比较中证明其表达能力和重建效果。
先前的评价方案存在以下两个主要问题。
1. ICP 对齐过程对局部区域的变化比较敏感。直观而言,对于两个完全重合的 3D mesh,如果我们只对 predicted mesh 的鼻子区域进行修改,理想状况下,两个 mesh 对齐结果应该如中间所示,因为其他区域在改变前后与 ground-truth 是完全重合的,两者的误差应该主要集中在鼻子区域;而根据以往的评价流程,全局对齐操作则会由于鼻子区域的变化,导致对齐后 mesh 整体的位置发生偏移而带来误差的放大。对此,本文将人脸的评估分为四个区域,分别对每一个区域进行对齐、评估,而不考虑其他区域的影响。
2. 单向的最近邻点建立的对应关系容易导致语义信息的不一致。如图所示,对于 predicted mesh 上的某一点 x,在计算误差时需要找到 ground-truth scan 上的对应点,若通过点到平面的最近距离建立对应关系,则可能为 y1。这时,虽然 y1 是 x 距离最近的点,然而他们在语义信息上没有关联性,与嘴角的点 x 相关联的应该是 y2,然而 y2 不会是 x 所对应的最近点。
在这样的情况下,虽然计算得到的误差较小,但由于对应点之间的语义信息并不一致,因此计算得到的误差并不靠谱,较小的误差并不能表明较大的相似度。对此我们提出使用一步额外反方向非刚性对齐,并且其中增加了包含有语义信息的关键点损失,从而得到语义上更加一致的对应关系。
为了解决上述两个问题,我们首先构建了一个新的 benchmark,包含 100 个 2D 图片-3D scan 对,其中每个 scan 渲染了 5 个不同视角下(包含 1 个正脸和 4 个侧脸)的 RGB 图片及深度图片;对于每个 3D scan,我们都得到了语义信息一致的 68 个关键点以及不同脸部区域的 mask,并在此基础上首次实现了 3D 人脸在不同区域上的细粒度评价。我们的 benchmark 的部分数据如下图所示。
数据集的构建过程借助 256 个关键点进行对齐和转拓扑,确保了统一拓扑的 mesh 的质量,进而保证了不同 id 的人脸区域的 mask 以及关键点的一致性。
在 REALY 的基础上,我们提出一个新的评价流程避免先前评价流程的问题,具体而言,我们的评价流程包含如下两个步骤:
1. 局部区域的对齐:考虑到不同区域的重建质量会影响全局的对齐结果,由于我们的 benchmark 得到了不同脸部区域的 mask,因此我们可以借助这个信息将 predicted mesh 对齐到 ground-truth scan 的特定区域,在 error 计算时只计算 ground-truth scan 上的特定区域与 predicted mesh 之间的误差,而不考虑脸部其他区域对于对齐结果以及误差计算的影响。
在构建 benchmark 的过程中,我们对于一些高质量的人脸数据 (Headspace, FaceScape, HIFI3D) 进行了拓扑结构的统一,得到了约 2000 个不同性别、年龄、种族的人脸 mesh,在此基础上,我们构建了一个全头人脸 3DMM 并命名为 HIFI3D++,不仅包含脸部区域,还包含脖子、眼球、口腔,不同拓扑结构的比较如图 1 所示。
表 1 统计了开源的 3DMM 与 HIFI3D++ 的基本信息,图 9 则显示了不同 3DMM 的 variation,我们的 RGB(-D) Fitting 实验也证明了 HIFI3D++ 在表达能力上优于先前的 3DMM。
我们首先在 toy 数据上证明我们的评价流程相较于先前的方法的优越性。通过替换一组统一拓扑人脸的不同区域,采用不同的评价流程进行对齐和对应关系的建立,比较了不同评价流程 i) 由于对齐导致的误差以及 ii) 建立的对应点与 ground-truth 真实对应点之间的误差,结果如图 4 和表 2、3 所示。
从图 4 来看,全局的对齐策略(右图)由于局部区域的改变容易导致全局误差的变化,而我们的对齐策略则只聚焦于特定区域(右图),其中对角线的 error map 表明误差较大的区域,而非对角线的 error map 的误差较小,对应没有发生变化的区域。
我们对比了先前的评价流程与我们提出的评价流程在 REALY benchmark 上的表现。对于先前的评价方法,我们从两个方向(即 ground-truth scan 的每个点与 predicted mesh 建立对应关系,以及 predicted mesh 每个点与 ground-truth scan 建立对应关系)作为对比,定量与定性的比较如表 4 和图 5 所示。
我们通过 user study 投票选出各组最好 (*)/次好 (†) 的人脸,通过比较不同评价流程选出的最好的人脸(橙、蓝、紫框)可以发现,我们的评价流程(橙框)选出的最好的人脸与 user study 的投票结果匹配程度更高。并且,我们的评价流程给出了细粒度的评测结果,即:对不同的人脸区域都能进行定量的评价和比较。
6.3 不同3DMM在REALY上的表现
借助 REALY benchmark,本文采用 RGB(-D) Fitting 的方式对不同 3DMM 的表达能力进行了评价,定量与定性的比较如表 5 和图 8 所示。
定量和定性的结果表明,我们的 3DMM 在 REALY 上取得了更优的重建效果,并且,通过不同方法的比较表明,RGB-D Fitting 的结果要显著优于目前最好的重建算法,3D 人脸重建任务仍有很大的提升空间。
为了进一步证明 HIFI3D++ 的表达能力,我们只用顶点损失,根据最小二乘的方式拟合一组 mesh,对 HIFI3D/HIFI3D(A)/HIFI3D++ 进行比较,如图 9 所示。
本文是我们对 3D 人脸重建评价的重新思考和探索。针对先前的评价指标无法准确衡量重建 mesh 与 ground-truth 相似性的问题,我们构建了一个新的数据集——REALY,包含更加丰富以及高质量的脸部区域信息,并借助新的评价流程对先前的数十个重建算法、3DMM 进行了评价。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧