CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

2018 年 3 月 12 日 机器之心

选自arXiv

作者：Shu Liu 等

机器之心编译

参与：刘晓坤、路雪

近日，港中文联合腾讯优图提出了新型实例分割框架 PANet，该网络通过加速信息流和整合不同层级的特征，可以极大提高生成预测掩码的质量。PANet 在 COCO 2017 挑战赛的实例分割任务中取得了第一名，优于 COCO 2016 实例分割挑战赛冠军和 Mask R-CNN。

引言

实例分割是最重要、最具挑战性的任务之一。该任务的目的是预测类别标签和像素级实例掩码以定位图像中不同数量的实例。实例分割对自驾汽车、机器人、视频监控等很有用。

由于深度卷积神经网络的助力，人们提出了多种实例分割的框架 [21,33,3,38]，其性能也提升得很快 [12]。Mask R-CNN [21] 是一个很简单有效的实例分割框架。基于 Fast/Faster R-CNN [16,51]，研究者还提出了全卷积网络（FCN），FCN 结合边框回归和分类网络用于预测掩码。为了获得足够高的分割性能，研究者利用特征金字塔网络（FPN）[35] 来提取网络内部的特征层级，其中增强了自上而下的路径（具备侧向连接）以传播语义较强的特征。

近期发布的新数据集 [37,7,45] 为算法提供了很大的提升空间。COCO [37] 由 20 万张图像构成，每张图像都包含了空间布局复杂的多个实例。与此不同，Cityscapes [7] 和 MVD [45] 的每张图像都是包含大量交通参与者的街景，因此这些数据集会出现很多模糊的、高度遮挡以及非常小的实例。

研究者提出了多个原则，用于设计既可以执行图像分类又可以执行目标识别的网络。例如，通过残差连接 [23,24] 和密集连接 [26] 缩短信息路径，使信息更有效地传播。此外，通过分离-转换-融合策略创建并行路径以增加信息路径的灵活性和多样性也大有裨益 [61, 6]。

研究发现

本文研究者指出当前最优的 Mask R-CNN 中的信息传播还可以进一步优化。具体来说，低层级的特征对于大型实例识别很有用。但最高层级特征和较低层级特征之间的路径很长，增加了访问准确定位信息的难度。此外，每个建议区域都是基于从一个特征层级池化得到的特征网格而预测的，此分配是启发式的。由于其它层级的丢弃信息可能对于最终的预测还有用，这个流程还有进一步优化的空间。最后，掩码预测仅在单个视野上执行，无法获得更加多样化的信息。

贡献

受到这些理论和观察的启发，本文作者提出了新的实例分割框架 PANet，如图 1 所示。

首先，为了缩短信息路径和用低层级的准确定位信息增强特征金字塔，作者创建了自下而上的路径增强。实际上，文献 [44,42,13,46,35,5,31,14] 中的系统就使用了低层级的特征。而传播低层级特征来增强整个特征分层，从而提升实例分割质量的方向，尚未有人进行探索。

第二，为了恢复每个建议区域和所有特征层级之间被破坏的信息，作者开发了适应性特征池化（adaptive feature pooling）技术。这是一个简单的组件，可以将所有特征层级中的特征整合到每个建议区域中，避免了任意分配的结果。通过该操作，研究者创建了更简洁的路径（与 [4,62] 相比）。

图 1. 框架图示。（a）FPN 主干网络。（b）自下而上的路径增强。（c）适应性特征池化。（d）边框分支。（e）全连接融合层。注意：为简洁起见，（a）和（b）中省略了特征图的通道维度。

最后，为了捕捉每个建议区域的不同视野，研究者使用小型全连接层来增强掩码预测，作为对 Mask R-CNN 所用的 FCN 的补充。通过结合这两种视野的预测结果，网络输出的信息多样性有所改善，掩码质量有所提升。

目标检测和实例分割共享前两个组件，这使得二者性能均有明显提升。

实验结果

PANet 在多个数据集上达到了顶尖的性能。研究者使用 ResNet-50 [23] 作为 PANet 的初始网络，使用单个尺度进行测试，其性能优于 COCO 2016 挑战赛目标检测和实例分割任务冠军。注意：之前的结果均由具备多尺度和水平翻转测试的大型模型获取。

本研究提出的模型在未经大批量训练的情况下，取得了 COCO 2017 挑战赛实例分割任务第一名、目标检测任务的第二名。研究者还在 Cityscapes 和 MVD 上对该系统进行了基准测试，同样获得了顶尖结果，这表明 PANet 是一个非常实际、且性能优秀的框架。之后研究者将公开代码和模型。

图 3. 使用适应性特征池化从不同特征级中整合特征的比率。每一条线表示应被分配至 FPN 中相同特征级的一组建议区域，即具备相似尺度的建议区域。横轴表示池化特征的来源。这表明具备不同大小的建议区域都可以使用不同级别的特征。

图 4. 具备全连接融合层的掩码预测分支。

表 1. PANet、COCO 2016 实例分割挑战赛冠军和 Mask R-CNN 在 COCO 测试-开发子集上的 Mask AP 对比，后两者是基线模型。

表 5. 每一行的图像分别是本研究提出的模型在 COCO 测试-开发集、Cityscapes 测试集和 MVD 测试集上的实例分割结果。

表 8. 在 Cityscapes 验证子集上的结果，标注为 AP [val]；在 Cityscapes 测试子集上的结果，标注为 AP。

论文：Path Aggregation Network for Instance Segmentation

论文链接：https://arxiv.org/abs/1803.01534

神经网络中的信息传播方式是非常重要的因素。本论文提出了 Path Aggregation Network（PANet），该网络可以对基于区域建议的实例分割框架中的信息流进行加速。具体来说，我们通过自下而上的路径增强，在较底层用准确的定位信号增强了整个特征分层，从而缩短了较底层和最高层特征之间的信息路径。我们展示了适应性特征池化（adaptive feature pooling）操作，将特征网格和所有特征层级连接起来，以使每个特征层级中的有用信息能直接传播到随后的建议子网络。我们还创建了一个互补的分支网络为每个建议捕捉不同的视野，从而进一步提升生成掩码预测的质量。这些提升都能够很简单地实现，只需要少量的额外计算量。PANet 在 COCO 2017 挑战赛的实例分割任务中取得了第一名，在目标检测任务中取得了第二名，且无需大批量训练。它在 MVD 和 Cityscapes 上也取得了当前最佳的结果。