人体姿态估计做到今天，还有哪些「硬核场景」、「性能瓶颈」、「新战场」上的难题？

2019 年 3 月 7 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。点击文末“阅读原文”立刻申请入群~

本文来源于知乎话题“人体姿态估计做到今天，还有哪些「硬核场景」无法解决，哪些「新战场」可以开辟，哪些「性能瓶颈」难以逾越？”：

原文链接：

https://www.zhihu.com/question/313946052

二维人体姿态估计（2D Human Pose Estimation）在 COCO 上的 state-of-the-art 结果已经做到将近 80AP，对于大多数日常应用场景，这个精度已经不错了。除了在 loss 或 network 上继续改进，将点数再刷上去，二维人体姿态估计这个问题，还有什么新战场可以开辟？还有哪些「硬核」场景无法解决？还有什么性能上的瓶颈至今难以逾越？

localization error

某位知乎匿名大佬表示一个最直接的回答是，用state-of-the-art跑一下coco，然后用analysis code分析一下结果，就知道还有哪些问题没有解决：

https://github.com/matteorr/coco-analyze/blob/release/COCOanalyze_demo.ipynb

human pose在通往准确率100%的道路上的硬核场景其实一直是known的。

简单分析一下localization error：

Miss：和输入图片的分辨率，以及keypoint点的feature复杂程度有关。要解决这个问题，和解决imagenet那最后3%的error rate没啥区别。没提到的False Positive和False Negative和这个是一个道理。

Jitter: 这个一方面point ground truth的本身就不一定特别靠谱（AP@0.95这个级别），也许网络predict得更好，但也算是jitter了。另一方面gaussian + heatmap的形式也可以商量。

Swap：检测到的点分配给人时出的问题，这个还能再改进改进。Bottom-up的方法解决这个问题百花齐放，PAF，long-middle-short regression，指向人中点的vector等等。这个问题其实和pixel grouping本质是一样的，如果有好的idea，还能用于分割（e.g AE, PersonLab）。但我还是觉得还可以再挖掘挖掘人体的本身的结构特点，感觉如果能用于分割，倒是好发文章，但不一定对人体是最优的。

Inversion: 这个是感受野退化和有些feature确实很含糊（人局部地看也搞不清楚）导致的。我怀疑这个能不能end-to-end的解决。也许需要根据图片加入一步修正。此外可能需要导入一些先验知识。怎么导入先验知识这就又是一个很大的课题了。

当视觉发展到这一步，每个难啃的骨头都会启发一些更大的问题，可以改进的地方当然很多，改不改进得动倒是另一回事XD，期待更多solve the problem，而不是overfitting the test/val dataset的工作出现。(逃

至于落地，部署，平衡准确率和速度中的问题，这个得请公司的人来回答。

crowd pose

上交大@卢策吾老师也提出了一点看法：从COCO刷分的角度看，目前已经很高了。但是还是有一些重要的问题，COCO数据集合没有很好体现。比如说crowd pose拥挤人群这个问题就是，我们来看看COCO拥挤指数分布

我们可以发现绝大部分数据是非常不拥挤。其实拥挤人群是一个非常难，也是经常会遇到的实际问题。我们建了一个新的数据集（crowdpose）如果我们把各个算法在不同的的crowd index上测一下。

我们看到其实随着拥挤程度的提高，各种算法挂得很快。crowd pose 这个问题比起以前的问题（COCO数据），难度明显高出一截：（1）human detector基本挂了，所以top-down的路线会遇到很多麻烦（2）part之间相互干扰特别大，bottom-up路线会在合并阶段遇到很多阻碍。我们从神经网络角度看，一个干扰part（别人的part），从appearance上和structure上都很难被分辨出来。所以，要解决这个问题一定要新的思路，我感觉这个问题可能要做一定时间才能被搞定。

我们SJTU MVIG提出了一个方案（已被CVPR 2019录取），也算是抛转引玉了，感觉要推到COCO那种80mAP多那种还是很难，还需要大家一起来解决。下面是我们的砖

论文在这里：https://arxiv.org/abs/1812.00324

代码在这里：https://github.com/MVIG-SJTU/AlphaPose

作为alphapose的升级版本，大家有空的话，麻烦点个赞。比起前面方法提高还是比较明显的。