TPAMI 2020 | 用于单目3D人体姿态估计的局部连接网络

会员服务 ·

TPAMI 2020 | 用于单目3D人体姿态估计的局部连接网络

2020 年 10 月 24 日 CVer

关键词：三维人体姿态估计；局部连接网络

导读

本文是被人工智能领域的顶级期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）于2020年8月接收的论文《用于单目3D人体姿态估计的局部连接网络（Locally Connected Network for Monocular 3D Human Pose Estimation）》的解读。

该论文由北京大学与微软亚洲研究院、深睿医疗合作，解决了从单张图像对场景中的人进行三维姿态估计的问题。该工作基于2019年 ICCV 论文《针对三维人体姿态估计的网络结构优化（Optimizing Network Structure for 3D Human Pose Estimation）》，提出局部连接网络（LCN），来克服图卷积神经网络（GCN）表征能力不足的限制，极大地提高网络表征与泛化能力，且进一步实现端到端部署，并成功应用至不同场景。

背景介绍

利用计算机视觉技术对场景中的人进行姿态估计是当前重要的研究问题之一，但面对如遮挡、运动模糊等问题的挑战仍未被完全解决。我们旨在研究单目三维人体姿态估计，即从单张图像恢复人体关节点 3D 坐标。已有的工作之一是基于深度学习方法的全连接网络（Fully Connected Networks）（参考文献1），虽然相比传统方法已经大大提高了准确率，但是该方法并未利用人体所提供的丰富的先验知识，如人体关节连接与人体肢体长度等信息，该方法受限于其网络中密集连接而导致的弱表征力（图1（a））。而后的工作（参考文献2）将图卷积网络（Graph Convolutional Network，GCN）的思想应用到这一问题中，却囿于其共享权重的设计并未达到很好的效果（图1（b））。基于 GCN，我们提出了一个广义公式， $y=X(S \odot W)$ ，并推导出 FCN，GCN 都是该公式的特例。

图1. FCN，GCN 与本文所提出的 LCN 模型中某一层网络的概念性差异示意图

模型概览

图2. 我们的端到端单目 3D 人体姿态估计模型的整体流程

本文中我们提出了一种从单张图像中进行 3D 人体姿态估计的方法（图2）。该方法包括两个步骤：首先从图像中估计 2D 姿态，然后估计相应的 3D 姿态。现有的 2D 姿态估计器已较成熟，我们的改进着重于第二步。考虑到人体关节连接可以自然地用图来表示，我们从图卷积网络（GCN）出发，基于上述广义公式，将 GCN 在用于 3D 姿势估计时为不同关节分配共享过滤器的缺点克服，提出局部连接网络（Local Connected Network，LCN），以为不同的关节分配专用而非共享的过滤器。利用空间积分的常用可微手段（spatial integral）（参考文献3），我们联合已有的 2D 姿态估计器和 LCN 网络进行端到端训练，使其可以处理不断迭代变化的 2D 姿态。

实验结果

我们在两个基准数据集上评估了我们的方法，观察到 LCN 已达到最好水平并且具有强大的跨数据集泛化能力。表1为在 H36M，即目前最大的三维人体姿态估计基准数据集之一上的表现，其中 Ours（Joint）为我们端到端训练模型的结果，评价指标是预测姿态与真实姿态的平均关节误差值，单位毫米。

表1. 现有工作与我们的模型在H36M数据集上的定量误差结果（越小表示越好）

图3为应用我们的模型在不同场景图片中的效果。可以看到，该模型可成功泛化至背景丰富且动作较复杂的未曾见过的场景中。

图3. 我们的模型应用在不同场景中的可视化结果，最后一列为失败案例

结语

本文从图卷积网络 GCN 出发，提出局部连接网络 LCN，来从单目图像中估计 3D 人体姿态，并有效地克服了 GCN 的局限性。特别地，LCN 具有很强的表征与泛化能力，通过端到端联合训练在基准数据集上达到了最好水平。更重要的是，LCN 可以很好地推广到丰富新颖的动作与场景中。更多细节，欢迎参考原文（点“阅读原文”跳转）。

参考文献

[1] J. Martinez, R. Hossain, J. Romero, and J. J. Little, "A simple yet effective baseline for 3d human pose estimation," in ICCV 2017.

[2] L. Zhao, X. Peng, Y. Tian, M. Kapadia, and D. N. Metaxas, "Semantic graph convolutional networks for 3d human pose regression," in CVPR 2019.

[3] X. Sun, B. Xiao, F. Wei, S. Liang, and Y. Wei, "Integral human pose regression," in ECCV 2018.

TPAMI

IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）是人工智能领域最顶级国际期刊，该期刊影响因子在人工智能领域的期刊中常年位居榜首，高达17.861，在中国计算机学会（CCF）期刊会议推荐列表中为A类。在人工智能领域会议论文日益增多的今天，TPAMI仍维持每年仅200篇左右的录用量。

图文 | 马霄璇

Computer Vision and Digital Arts (CVDA)

下载1：动手学深度学习

在CVer公众号后台回复：动手学深度学习，即可下载547页《动手学深度学习》电子书和源码。该书是面向中文读者的能运行、可讨论的深度学习教科书，它将文字、公式、图像、代码和运行结果结合在一起。本书将全面介绍深度学习从模型构造到模型训练，以及它们在计算机视觉和自然语言处理中的应用。

下载2：CVPR / ECCV 2020开源代码

在CVer公众号后台回复：CVPR2020，即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复：ECCV2020，即可下载ECCV 2020代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2400+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群