The performance of human pose estimation depends on the spatial accuracy of keypoint localization. Most existing methods pursue the spatial accuracy through learning the high-resolution (HR) representation from input images. By the experimental analysis, we find that the HR representation leads to a sharp increase of computational cost, while the accuracy improvement remains marginal compared with the low-resolution (LR) representation. In this paper, we propose a design paradigm for cost-effective network with LR representation for efficient pose estimation, named FasterPose. Whereas the LR design largely shrinks the model complexity, yet how to effectively train the network with respect to the spatial accuracy is a concomitant challenge. We study the training behavior of FasterPose, and formulate a novel regressive cross-entropy (RCE) loss function for accelerating the convergence and promoting the accuracy. The RCE loss generalizes the ordinary cross-entropy loss from the binary supervision to a continuous range, thus the training of pose estimation network is able to benefit from the sigmoid function. By doing so, the output heatmap can be inferred from the LR features without loss of spatial accuracy, while the computational cost and model size has been significantly reduced. Compared with the previously dominant network of pose estimation, our method reduces 58% of the FLOPs and simultaneously gains 1.3% improvement of accuracy. Extensive experiments show that FasterPose yields promising results on the common benchmarks, i.e., COCO and MPII, consistently validating the effectiveness and efficiency for practical utilization, especially the low-latency and low-energy-budget applications in the non-GPU scenarios.


翻译:人类构成估计的性能取决于关键点本地化的空间精确度。 多数现有方法都通过从输入图像中学习高分辨率(HR)代表度来追求空间准确性。 通过实验分析,我们发现人力资源代表度导致计算成本的急剧增加,而与低分辨率(LR)代表度相比,准确度的提高仍然微不足道。在本文中,我们提出了一个成本效益高的网络设计范式,以LR代表度为代表度进行高效的图像估算。虽然LR设计在很大程度上缩小了模型的复杂度,但如何有效培训网络的空间精确度是一个伴随的挑战。我们研究的是“更快”系统的培训行为,并制定了新的递增跨热带损失功能,以加速趋同并促进准确性。RCE损失将普通的跨热带损失从二进制监督到持续的范围,因此,对配置估计网络的培训能够从Sigmume的功能中获益。 通过这样做,产出热映射可以从LRL特性中推断出,而不会丧失空间准确性,同时我们研究“更快”系统(RCE)的递增性跨度(RCE)损失功能性),同时展示了常规成本值的计算结果和模型的准确性(IL)的准确性(I)的计算结果。 和模型(I)的计算结果的精确性)的精确性(ILM)的精确性(I)的计算结果降低了)的精确性)比值值值的精确性(I)的精确性(I)的精确性(I)比(I),降低了(I)的精确性(I)比(I)和(I)的精确性(I)。

1
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
15+阅读 · 2021年5月21日
专知会员服务
59+阅读 · 2021年3月17日
专知会员服务
139+阅读 · 2020年5月19日
Diganta Misra等人提出新激活函数Mish,在一些任务上超越RuLU
专知会员服务
14+阅读 · 2019年10月15日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
7+阅读 · 2020年3月1日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
一文读懂Faster RCNN
极市平台
5+阅读 · 2020年1月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Faster R-CNN
数据挖掘入门与实战
4+阅读 · 2018年4月20日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员