学界 | 清华等机构提出基于内部一致性的行人检索方法，实现当前最优

2018 年 6 月 19 日 机器之心

选自arXiv

作者：Yifan Sun等

机器之心编译

参与：刘晓坤、路

利用部分级特征进行行人图像描述提供了细粒度的信息，已在近期文献中被证明对于人物检索很有用。相对于外部线索方法，清华大学、悉尼大学和德克萨斯大学的研究者采用内部一致性假设，提出新的基线网络和精炼部分池化方法，实现了更好的人物检索性能，并超越了当前最佳结果。

行人检索又叫行人重识别（person re-identification，re-ID），即基于给定行人，从大型数据库中检索特定相关人行道的图像。目前，深度学习方法主导该领域，性能超过人工检索者 [40]。深度学习得到的表征提供高度判断力，尤其是该表征是从深度学习得到的部分特征聚合而来时。在 re-ID 基准上最新的当前最优性能是使用 part-informed 深层特征获得的 [35, 27, 37]。

图 1：多个行人检索深度部分模型的分区策略。（a）到（e）：GLAD [31]、PDC [27]、DPL [35]、Hydra-plus [22] 和 PAR [37] 的分区部分，分别截选自对应论文。（f）：本论文提出的方法使用了一种统一的分区方式，然后对每个条状框进行精炼。PAR [37] 和本论文的方法都实施了「软」分区，但是二者有很大区别。

学习判别性部分特征的先决条件是对这些部分进行准确定位。近期的 SOTA 方法的分区策略有所不同，可以分为两大类。第一类 [38, 27, 31] 利用外部线索，如利用人体姿势估计最近进展的帮助 [23, 32, 15, 25, 2]。它们依赖于外部人体姿势估计数据集和复杂的姿势估计器。姿势估计和行人检索之间的底层数据集偏差是对行人图像进行完美语义分区的一大障碍。另一类 [35, 37, 22] 不使用语义部分的线索。它们不需要进行部分标注，但其准确率与第一类相差无几。部分分区策略已在图 1 中列出。与学习部分级深度特征的进步相反，本论文研究者重新思考构成良好对齐的部分的机制。语义分区或许能够提供良好对齐的稳定线索，但是可能出现噪声姿势检测。本论文从另一个角度出发，把每一部分的一致性作为重点，研究者认为这是空间对齐的关键因素。然后，本研究的目标是，给定一些粗糙分区的部分，精炼并强化部分内部的一致性。具体来说，本论文做出了以下贡献：

首先我们提出了一个名为基于部分的卷积基线（PCB）网络，它在卷积层上进行统一的分区，并借此学习部分级的特征。但这种方法并不会明确对图像进行分区，PCB 输入整张图像并输出卷积特征。作为分类网络，PCB 的架构是非常简洁的，在只是在主干网络上做一点修改。训练过程同样也是非常标准的，不需要过多花俏的技巧。研究者表示卷积描述器比常用的全连接（FC）描述器有更高的判别能力。在 Market-1501 数据集中，网络性能从 85.3% 的 rank-1 准确率和 68.5% 的 mAP 提升到 92.3% (+7.0%) 的 rank-1 准确率和 77.4% (+8.9%) 的 mAP，超过了很多当前最优方法。

其次，研究者提出一种适应性池化方法来精炼统一的分区。他们考虑到每个部位的信息应该是一致的，但观察到在同一划分下，每个部分都存在异常值。这些异常值实际上可能更接近于其它部分的信息，它们也就表明了内部的不一致性。因此，研究者通过重新定位这些异常值到最相近的分区部分而精炼了统一分区，这样就能加强内部一致性了。图 1（f）展示了经过精炼后的部分的示例。通过本文提出的精炼部分池化（RPP），模型在 Market-1501 上的表现进一步提升到了 93.8% (+1.5%) 的 rank-1 准确率和 81.6% (+4.2%) 的 mAP。

研究者结合这两种方法，在人物检索上实现了新的当前最优水平。重要的是，实验证明，精炼部分要优于注意部分，即通过注意力机制学习到的部分。

图 2：PCB 的结构。输入图像从主干网络到形成 3D 张量的前向传播中通过堆叠的卷积层。PCB 用卷积池化层取代了原来的全局池化层，以在空间上将 T 下采样为 p 个列向量 g。一个随后的 1x1 核大小的卷积层减少了 g 的维度。最后，每个维度减少的列向量 h 被分别输入一个分类器。每个分类器用一个全连接层和一个序列 softmax 层实现。在训练过程中，每个分类器预测输入图像的身份，并由交叉熵损失所监督。在测试过程中，g 或 h 的 p 个部分被拼接以构成输入图像的最终描述子。

图 3：部分的内部不一致性的可视化。图左：T 在训练过程中被平等地分为 p=6 个水平条（部分）。图右：T 中的每个列向量用一个小矩形表示，并以和它最接近部分的颜色着色。

图 4：PCB 结合精炼部分池化方法。由于这里仅关心空间分区，3D 张量 T 简单地由一个矩形而不是方块表示。在 T 之前的曾被忽略，因为它们和图 2 中的相比没有变化。一个部分分类器预测每个列向量属于 p 部分的概率。然后每个部分从所有列向量中按对应概率（作为采样权重采样）。GAP 表示全局平均池化。

论文：Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

论文链接：https://arxiv.org/pdf/1711.09349.pdf

摘要：利用部分级特征进行行人图像描述提供了细粒度的信息，已在近期文献中被证明对于人物检索很有用。基于部分检索的先决条件是每个部分都需要良好定位。本文没有使用外部线索（例如姿态估计）来直接定位部分，而是假设每个部分存在内容一致性。具体来说，我们的目标是学习判别性的 part-informed 的特征用于人物检索，并作出了两项贡献。（i）提出了一种称为基于部分的卷积基线网络（PCB）。给定一幅图像输入，它输出输出一个有多个部分级特征构成的卷积描述子。利用统一的分区策略，PCB 相比当前最佳方法达到了更有竞争力的性能，使其能作为人物检索的强大卷积基线。（ii）提出了一种精炼的部分池化（RPP）方法。统一的分区不可避免地会在每个部分导致异常值，这些异常值在实际上和其它部分更相似。RPP 重新分配这些异常值到它们最接近的部分中，得到增强部分内部一致性的精炼部分。实验表明 RPP 允许 PCB 获得另一轮性能提升。例如，在 Market-1501 数据集中，我们达到了（77.4+4.2）%mAP 和（92.3+1.5）% 的 rank-1 准确率，远远超越了当前最佳方法。