实验结果在 H36M 数据集的 2D 检测结果如图5所示,其中横坐标表示用于微调的样本数量,纵坐标表示关节点检测成功率(Joint Detection Rate)。可以看出,NaiveFuse 在样本数量较小时效果差,出现了过拟合的现象。AffineFuse 的表现超过了 NaiveFuse,验证了参数分解的有效性。而本文提出的 MetaFuse,在不同的数量时都超过了其他方法,验证了元学习算法可进一步增强模型的泛化性能。 图5:H36M数据集的2D结果在 H36M 和 Total Capture 数据集中,得到的 3D 结果分别如表1和表2所示。3D 姿态估计的准确度,使用真实 3D 坐标和预测坐标的Mean Per Joint Position Error(MPJPE)来衡量。 表1:H36M数据集的3D结果表2:Total Capture数据集的3D结果图6对多视角信息融合的过程进行了可视化。 图6:信息融合过程可视化
5
总结
本文提出了 MetaFuse,一种在新的测试环境中只需少量样本即可训练的多视角信息融合模型。该方法可以和目前任意的 2D 人体姿态估计模型相结合,并且可迁移到任意的多相机环境中。在多个公开数据集中的实验结果,验证了该模型的泛化能力。参考文献[1] Haibo Qiu, Chunyu Wang, Jingdong Wang, Naiyan Wang, and Wenjun Zeng. Cross view fusion for 3d human pose estimation. In ICCV, pages 4342–4351, 2019.[2] Max Jaderberg, Karen Simonyan, Andrew Zisserman, et al. Spatial transformer networks. In NIPS, pages 2017–2025, 2015.[3] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model agnostic meta-learning for fast adaptation of deep networks. In ICML, pages 1126–1135. JMLR. org, 2017点击“阅读原文” 查看 CVPR 系列论文解读