【速览】ICCV 2021 | 从2D到3D的虚拟试穿模型

2021 年 10 月 22 日 中国图象图形学学会CSIG

学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播，通过短篇文章让读者用母语快速了解相关学术动态，欢迎关注和投稿~

◆ ◆ ◆ ◆

从2D到3D的虚拟试穿模型

赵富威

^{1}

, 谢震宇

^{1}

, Michael Kampffmeyer

^{2}

, 董浩业

^{1}

, 韩松芳

^{3}

，郑天祥

^{4}

，张涛

^{4}

，梁小丹

^{1}

^{1}

中山大学，

^{2}

挪威特罗姆瑟大学，

^{3}

加州大学圣地亚哥分校，

^{4}

陌陌科技

ICCV 2021

撰稿人：赵富威

通讯作者：梁小丹

推荐理事：林宙辰

原文标题：M3D-VTON: A Monocular-to-3D Virtual Try-On Network

原文链接： https://arxiv.org/abs/2108.05126

原文代码链接: https://github.com/fyviezhao/M3D-VTON

◆ ◆ ◆ ◆

摘要

3D虚拟试穿能够为在线购物提供直观和真实的试衣体验，现有方法主要依赖于繁杂的 3D 人体标注或者衣服扫描模版，限制了它们在多样化真实场景下的使用。另一方面，与其相关的2D试穿模型提供了更快速的解决方案，但也缺失了丰富和真实的3D表示效果。本文提出了一种结合2D和3D两方面优势的虚拟试穿方案（简称M3D-VTON），通过高效整合2D信息并引入深度预测网络其映射到3D空间，M3D-VTON 首次尝试并成功实现了从单图输入重建三维试穿网格的任务。

图 1 M3D-VTON 试穿效果示意图

动机（背景）

虚拟试穿是以人为中心的生成领域中十分具有商业价值的研究方向。近年来研究人员的目光已经逐渐从基于物理模拟 [1] 和动态捕捉 [2] 转向基于学习重建的三维试穿领域，即直接从多张2D图片重建3D人体从而避免昂贵的物理模拟或者三维感知设备。然而，大多数基于学习的三维试穿方法依赖于参数化的SMPL人体模型 [3] 或者一些预定义的衣服模版库 [4]，限制了他们的泛化性能。而且由于参数化3D表示所带来的高计算复杂度，多数现有的3D试穿模型难以达到较快的推理用时。另一方面，基于图像的2D虚拟试穿研究因其结构简单，推理速度快并且训练集容易构建等特点而得到了更为广泛的研究。多数2D试穿工作通过TPS [5] 等非刚性形变方法实现了较高质量的平面试衣渲染结果，但遗憾的是它们忽略了潜在的3D人体信息，在最终的表现形式上也欠缺 3D 试穿的逼真视觉效果。

为了解决上述 2D/3D 试穿的瓶颈限制，我们提出了一个轻量且有效的单图到 3D 虚拟试穿网络（Monocular-to-3D Virtual Try-On Network），简称为 M3D-VTON。M3D-VTON 结合了 2D 虚拟试穿和人体深度图估计来重建出最终的 3D 试穿结果。同时，为了更准确地进行衣物和目标人物的几何对齐，我们设计了一个自适应的预对齐策略来缓解 TPS 变形的难度，形成的两阶段变形有效提高了输入特征匹配精度。另外，我们创新性地利用深度梯度损失来捕捉输入单图中所隐含的“影子”即亮度变化信息，引导网络恢复出深度图中复杂的细节几何变化。最后，我们构建了一个新的合成数据集 MPV-3D 来支撑本文的训练需求。

方法概览

M3D-VTON 主要包括三个模块，如图2所示，分别是（1）单图预测模块（Monocular Prediction Module，MPM），（2）深度优化模块（Depth Refinement Module，DRM）和（3）纹理融合模块（Texture Fusion Module，TFM）。整个框架的输入是一张目标衣服图像 $C$ 和一张参考人物图像 $I$ ，输出是参考人物穿上目标衣服后的三维试衣结果 $O$ 。

图 2 M3D-VTON 框架图

其中，MPM 在整个框架中起到基石作用，它为另外两个模块提供支持。具体地，MPM 通过一个多任务编码解码网络同时实现如下三个目标：（1）通过人体关键点和人体分割去除掉输入人物 $I$ 的衣服信息（即 Decloth），得到去除原本衣服的人物表示集合 $A$ ；（2）通过两阶段的变形过程（自适应预对齐和TSP变形）将输入平铺衣服图 $C$ 对齐到参考人物的目标位置（如图2人物的上半身）；（3）预测出跟目标衣服相兼容的人体分割图 $S$ 和初始人体深度图 $D^{i}$ 。因为 MPM 的输入不包含变形后的衣服，以及 MPM 中采用的 L1 深度损失倾向于惩罚深度估计图和真实深度图的低频差异，所以 $D^{i}$ 很难体现出人体的细节几何变化，导致其通常体现为一个过平滑的深度估计图。因此，为了给初始深度图加上更多细节，我们进一步设计了 DRM 来利用输入图像中包含的明暗变化信息。具体地，我们首先采用 Sobel 算子求取变形衣服 $C^{w}$ 和参考人物保留部分 $I^{p}$ 的图像梯度 $I^{g}$ ，接着将它们与 $D^{i}$ 并接送入一个类 UNet 网络得到优化后的深度估计图 $D^{r}$ ，DRM 通过深度梯度损失来引导 $D^{r}$ 恢复出更多的人体几何和三维衣服细节。DRM的结果提供了最终三维人物的几何形状，对于三维试穿的纹理，我们采用第三个模块 TFM 来实现，该模块接收变形衣服 $C^{w}$ ，参考人物保留部分 $I^{p}$ ，以及由 MPM 得来的初始正面深度图 $D_{f}^{i}$ 和人物分割图 $S$ 作为输入，同样通过一个类 UNet 网络输出 $C^{w}$ 和 $I^{p}$ 的纹理融合结果，即参考人物穿上目标衣服的 2D 纹理图像 $I^{t}$ 。最后，基于坐标对齐的人体优化深度图 $D^{r}$ 和试穿纹理图 $I^{t}$ ，我们可以反投影出带有颜色的点云并通过泊松重建 [6] 网格化该点云得到最终的三维试穿结果 $O$ 。

自适应预对齐

从图3可以看出，由于目标衣服和参考人物之间的尺寸相差过大，导致直接回归两者之间的 TPS 变形参数变得十分苦难，因此我们提出了一个自适应的预对齐策略来缓解 TSP 的变形压力。具体地，该策略通过 (1) 式将目标衣服 $C$ 旋转缩放到与参考人物上半身 $I^{at}$ 相接近的位置与大小上：

上式旋转因子 $R$ 通过下式 (2) 比较图像横纵比来确定：

其中 $\left ( x_{I^{at}}^{c},y_{I^{at}}^{c} \right )$ 和 $\left ( x_{C}^{c},y_{C}^{c} \right )$ 分别表示 $I^{at}$ 和 $C$ 的中心位置， $w$ 和 $h$ 分别代表相应图像的宽度和高度。

图 3 自适应预对其策略示意图

图3展示了自适应预对齐的可视化消融实验图，可见带有预对齐的 TPS 能够更容平滑且更准确地将目标衣服变形到参考人物相应位置上。

深度梯度引导

对于深度预测，传统的 L1 深度损失仅对z-轴方向敏感，且较多聚焦于低频损失分量，因此我们在 DRM 中首先将 L1 深度损失修改为对数 L1 损失以引导网络关注近距离人体深度点，其具体形式如下式 (3) 所示：

其中 $\epsilon _{i}$ 是第 $i$ 个深度点的 L1 损失。进一步，我们引入深度梯度损失来优化x-轴和y-轴方向上的深度估计，其公式为：

其中 $\triangledown$ 表示 Sobel 算子。图4展示了深度梯度损失对于深度图法线估计结果的优化效果：

图 4 深度梯度损失优化深度图细节示意图

三维感知纹理混合

纹理融合过程中，我们首次引入了深度图作为先验信息，并通过它与人体语义分割图的联合指导来更好的融合变形衣服和参考人物。图2绿色虚线框中的 TFM 同时接受 $S$ 和 $D_{f}^{i}$ 作为输入，使得该模块在一定程度上具备了三维感知能力。例如对于双手交叉体前的情况（如图5所示），深度图能够很好地提供手臂遮挡信息，从而更好地渲染出人物手臂，缓解衣物和皮肤相互渗透的现象。

图 5 三维感知纹理融合效果图。

实验结果

图6展示了 M3D-VTON 的纹理生成结果跟其他四个相关的 2D 虚拟试穿工作的定性可视化比较，我们的方法能够更准确的保留衣服的纹理细节并且有效解决了人体自遮挡问题，渲染出了高质量的 2D 试穿结果。

图 6 试穿纹理生成可视化比较结果

由于我们是第一个提出从单图到三维的试穿网络，所以并无可以直接比较的 3D 试穿工作，于是我们设计了二维试穿加三维人体重建的混合模型来进行比较。具体地，我们采用 CP-VTON [7] 作为二维试穿模型，将其试穿结果分别送入到 PIFu [8]，NormalGAN [9] 和 Deephuman [10] 三个人体重建网络中得到相应的 3D 试穿结果。它们与 M3D-VTON 的可视化比较如图7所示：

图 7 M3D-VTON 与其他基线三维试穿模型结果可视化比较

进一步，表1和表2量化比较了 M3D-VTON 与上述 2D 和 3D 虚拟试穿工作的结果。可见 M3D-VTON 在定量指标上同样优于所比较的其他方法。

表 1 M3D-VTON 与基线二维虚拟试穿方法定量比较

表 2 M3D-VTON 与基线三维虚拟试穿方法定量比较

MPV-3D 数据集

上述提到 M3D-VTON 是第一个尝试解决从单图到三维的虚拟试穿问题，现有数据集并不能满足模型的训练需求。因此我们基于二维试穿数据集 MPV [11] 构建了一个新的合成数据集，称为MPV-3D。MPV-3D 在 MPV 的基础上对每个人物图像添加了相对应的正背面深度图 $\left ( D_{f}^{i},D_{b}^{i} \right )$ ，它们与平铺衣服和参考人物图像构成四元组 $\left ( C,I,D_{f}^{i},D_{b}^{i} \right )$ 来支撑 M3D-VTON 网络训练。具体地，我们首先拟合 PIFu-HD [12] 人体网格到每一张 MPV 人物图像上，再通过正交投影将拟合好的三维人体投影到正面和背面深度图，其过程和数据集样例如图8所示：

图 8 （a）MPV-3D 构建过程，（b）MPV-3D 数据集样例

总结

本文提出一种从单图到三维的多模块虚拟试穿网络 M3D-VTON。M3D-VTON 将三维虚拟试穿问题解耦成一个深度估计问题和一个图像纹理生成问题，两者分别对应最终三维试穿网格的几何形状和纹理颜色。网络首先利用 MTM 模块学习互益特征，随后通过 TFM 和 DRM 模块将这些特征有效结合起来从而得到更加细化的三维试穿结果。同时我们也构建了一个新的合成数据集以期促进相关领域的发展。M3D-VTON 相比二维试穿在表现形式上更加丰富，同时比现有纯三维试穿方法更加快速轻量，提供了一种可行的三维虚拟试穿解决方案。

参考文献

[1] Bridson, Robert & Marino, S & Fedkiw, R. (2003). Simulation of Clothing with Folds and Wrinkles. ACM SIGGRAPH/Eurographics Symposium on Computer Animation. 10.1145/1198555.1198573.

[2] Pons-Moll, G., Pujades, S., Hu, S., & Black, M.J. (2017). ClothCap: seamless 4D clothing capture and retargeting. ACM Trans. Graph., 36, 73:1-73:15.

[3] Loper, Matthew et al. “SMPL: a skinned multi-person linear model.” ACM Trans. Graph. 34 (2015): 248:1-248:16.

[4] Bhatnagar, Bharat Lal et al. “Multi-Garment Net: Learning to Dress 3D People From Images.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 5419-5429.

[5] Bookstein, Fred L.. “Principal Warps: Thin-Plate Splines and the Decomposition of Deformations.” IEEE Trans. Pattern Anal. Mach. Intell. 11 (1989): 567-585.

[6] Kazhdan, Michael M. and Hugues Hoppe. “Screened poisson surface reconstruction.” ACM Trans. Graph. 32 (2013): 29:1-29:13.

[7] Wang, Bochao et al. “Toward Characteristic-Preserving Image-based Virtual Try-On Network.” ECCV (2018).

[8] Saito, Shunsuke et al. “PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 2304-2314.

[9] Wang, Lizhen et al. “NormalGAN: Learning Detailed 3D Human from a Single RGB-D Image.” ECCV (2020).

[10] Tang, Si An et al. “A Neural Network for Detailed Human Depth Estimation From a Single Image.” 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (2019): 7749-7758.

[11] Dong, et al. "Towards Multi-pose Guided Virtual Try-on Network." 2019 IEEE/CVF International Conference on Computer Vision (ICCV) IEEE, 2019.

[12] Saito, Shunsuke et al. “PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 81-90.