CVPR 2019 | 中科大 & 微软开源：基于高清表示网络的人体姿态估计

2019 年 5 月 10 日 PaperWeekly

作者丨孙明珊

学校丨哈尔滨工业大学（深圳）

研究方向丨目标检测

研究动机

人体姿势估计问题中关键点检测是其关键的一步，本研究主要针对该步骤进行优化。深度神经网络的特征抽取使得特征图不断缩减，而优化的突破口在于想获得一个具有高清表示信息的特征来提升关键点检测的精度。已有方法的关注重点在于高清信息的恢复，恢复方式包括三种：沙漏型对称网络结构、反卷积和空洞卷积。这些方法都是在下采样的基础上进行恢复，其精度不理想。

HRNet 采用在下采样的过程中不断加入并行的子网络分支，从而始终保持底层高清特征表示。因此，这种跨多分辨率的子网络信息交换使得高清信息更具表示性。

研究方法

首先采用高分辨率的子网络作为第一阶段；然后逐渐添加较低分辨率的子网络，得到多个阶段的子网络的输出；其中，第一阶段的每一个高分辨率特征图表示，都可以一次又一次地从其它并行表示分支接收信息，从而得到信息更丰富的高分辨率表示。

最后，输出的第一阶段子网络的输出是经过多次加入低分辨率融合的一种高清表示。基于之中高清特征表示的网络输出的关键点 heat map 更精确，空间分辨率精度更高。其网络结构如下图所示：

并行化多分辨率子网络及重复多尺度融合

每一阶段的分辨率特征图都由上一阶段的分辨率特征图以及它的下采样特征图组成，每一条子网络中特征图的尺度不变，但是相邻两条子网络的尺度随着不断加入其尺度会减小，其具体并行结构图下图所示：

虽然每条子网络内部特征图会接受来自相邻子网络上层特征传递给他们的其他尺度信息，这样的交叉特征融合怎么进行的呢？其分为三种情况，如下图所示：

从左到右是高分辨率、中分辨率和低分辨率的信息融合方式，这种融合方式统一交给“交换块”完成，其实也就是相应比例上、下采样的统称。

高分辨率汇合采用上一层的低分辨率进行上采样以及同子网络的特征图进行融合；中分辨率汇合采用相邻前后俩子网络上一层的特征图分别上采样和下采样以及同自网络上层特征图的融合；低分辨率则是直接由高分辨率下采样汇合到自己原有的低分辨率特征图。

整个网络可以在任意的阶段（子网络）进行跨尺度的信息交融，其完整的形式如下图：

与已有的产生高清特征的结构比较

一共总结了两类 high-to-low 和 low-to-high 结构：以 Hourglass 为例的降分辨率和升分辨率完全对称的方式；以 Simple Baseline 为例降分辨率采用较重的分类基网络，升分辨率采用轻量的结构，这种轻量的方式包括：反卷积、空洞卷积。分别对应下图 (a)、(b)、(c)、(d)：

从上面的情况可以看出，以上结构都有两个共同点：单次地进行多尺度融合而本结构胜在多次交叉融合。

Heat map估计

需要明确的是关键点检测的标注数据只是单个像素，在制作训练数据的 ground truth 时，应当用一个以该像素为中心，一个单位像素为方差的二维高斯核表示成 heat map 的形式。

网络结构具体化

HRNet 的主干网络，包含有 4 个并行子网络（4 个阶段），其分辨率逐渐衰减一半，对应的，网络宽度（通道数）增加 2 倍。第一个阶段含 4 个残差单元，与 ResNet50 相同，每个残差单元是由宽度为 64 的 bottleneck 组成，其后接一个 3×3 卷积，以将特征图宽度降低到 C。

第 2，3，4 个阶段中分别包含 1，4，3 个交换块（多尺度特征融合结构）。每个交换块包含 4 个残差单元，每个参差单元在每个分辨率都包含 2 个 3×3 卷积和一个跨分辨率的交换单元。也就是说，总共包含 8 个交换单元，得到了 8 个尺度的融合。

实现中，采用了一个小网络 HRNet-W32 和一个大网络 HRNet-W48。其中，32 和 48 分别表示在最后三个阶段中高分辨率子网络的宽度 (C)。 HRNet-32 的其它三个并行子网络的宽度分别是 64，128，256。HRNet-48 的其它三个并行子网络的宽度分别为 96，192，384。

实验分析

首先在 COCO 数据集上进行实验，采用和 Simple-Baseline 相同的探测器部分，更换基础网络还原高清特征表示，最终的 heat map 是取原始图片和翻转图片 heat map 的平均值。每个关键点的位置是通过调整最高响应值位置到最高响应到第二高响应方向的四分之一偏移处。最终在测试集上的表现：

从上表可以看出 HRNet 均要高于其他自底向上的方法，无论是小型网络 HRNet-32 还是大型网络 HRNet-48 均较 Simple-Baseline 有 1.2 到 1.8 倍的提升。

除此之外，在 MPII 姿势估计数据集上的结果如下表：

MPII 人体姿态数据集包含 25K 张图片，40K 个标注实例，其中 12K 用于测试.。训练策略与 COCO 数据集上的训练一致，除了网络输入图片尺寸裁剪为 256×256，以便于对比。测试策略也基本与 COCO 数据集上的一致。

最后，针对模型设计的消融实验分为三个面：反复多尺度特征融合、像素保持、像素表示，从下面的实验结果，得出：多尺度的融合会提升模型结果，并且越多次数的融合效果越好；与其余没有底层高清特征子网络并行(高清像素的保持)的高清表示结构相比，有这样的并行结构可以提升效果；HRNet 可以在较小尺寸输入上获得和其他模型在较大尺寸输入一样的结果，因此提升了计算效率。

总结

HRNet 为了解决稠密估计问题中高清特征如何准确表示的问题，从两个方面采取了改进：（1）将以往的低清特征图恢复到高清特征图(上采样、反卷积、空洞卷积)的方式优化成时刻维持高清而特征的并行化结构；（2）正因为并行化自网络的结构为多尺度特征的反复融合提供了可能，反复的融合更有利于高清特征的表示。因此，这样的网络结构也可以运用在语义分割、人流量估计等稠密估计的场景中。