CVPR2019|浙大CAD实验室：快速鲁棒的多视角多人三维姿态估计新方法（含直播回放）

2019 年 6 月 16 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

6月13日晚20:00，我们邀请了浙江大学硕士研究生董峻廷，为我们分享其CVPR2019 的工作：多视角下多人三维姿态估计，在公众号回复“44”或者“董峻廷”即可获取PPT和回放视频下载链接。

➤详情传送门：

极市直播|董峻廷：多视角下多人三维姿态估计（CVPR2019，已开源）

回放视频在这里☟（建议在pc端观看）

以下是作者对于论文的技术解读，可以结合视频一起阅读哦：

我们介绍一篇CVPR'2019的论文:Fast and Robust Multi-Person 3D Pose Estimation from Multiple Views,该论文由浙大CAD实验室三维视觉研究组提出。该方法比之前的最先进的方法在相应的基准数据集上效果有非常明显的提升(Campus数据集96.3% vs. 90.6%, Shlef数据集96.9% vs. 88%), 同时,该算法将运行速度也提升了十几倍.

论文地址:
https://arxiv.org/pdf/1901.04111.pdf
代码地址:
https://github.com/zju3dv/mvpose
项目地址:
https://zju3dv.github.io/mvpose/

0.Demo

1. 引言

1.1 论文的问题描述

在给定标定好的多视角图像, 恢复场景中多人的三维姿态, 这是计算机视觉中一个长期存在的问题, 有着广泛的应用, 如人机交互, 视频监控, 运动体育转播等等.

1.2 当前方法在这个问题的局限性

现有的方法都是第一步先用一个已有的2D人体姿态估计器得到每一个视角下的2D姿态. 然后将各个视角下同类别的2D关节点triangulation得到所有人的3D关节候选点, 然后在这所有人的状态空间上用pictorial structure model去推理得到每个人的3D姿态, 由此导致计算量巨大, 同时因为没有考虑人的外观信息, 精度也不高.

1.3 我们的出发点和解决方法

考虑到之前的方法把所有人的候选点混在一起做推理, 这样又慢有容易出错, 我们就想能不能先找到各个视角下人与人的对应关系, 然后在同一个的候选空间里去做推理, 这样推理空间大大减小, 而且正确性也还能提升.

由此我们就提出去结合几何信息和人体的外观信息, 去寻找各个视角中人的对应关系, 同时加入回路一致性的约束, 保证多视角匹配的一致性.

2. 论文方法

2.1 问题的形式化

我们把上述问题, 形式化成一个优化问题. 首先, 利用极几何约束和人体外观信息构造相似性矩阵A, 然后我们要求解的各个视角中人与人的对应关系矩阵P. 同时我们又有回路一致性的约束, 要求矩阵P是低秩, 为了便于优化, 低秩可以进一步松弛为矩阵P的核范数. 由此得到一个凸问题如下:

我们提出了以下算法来高效求解:

实验分析

我们先在Campus和Shelf数据集上, 和之前的SOTA做比较. 结果是, 在PCP的metric下, 在Campus数据集上我们的方法比之前的SOTA高出5.7%, 在Shelf上高出8.9%. 甚至是我们的方法不用pictorial structure的结构而用最简单的triangulation, 在两个数据集上也比SOTA分别高出1.9%和7.1%. 具体结果如下: