快速全景分割新网络：FPSNet | 分割效率高，速度可达 35 FPS！

2019 年 10 月 19 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转载自：机器之心 参与：高璇、张倩

作者：Daan de Geus等

全景分割是图像分割的一个子领域，是语义分割和实例分割的结合。在这篇论文中，来自荷兰埃因霍芬理工大学的研究者提出了一种用于快速全景分割的端到端网络——FPSNet。该网络无需计算成本极高的实例掩码预测或融合启发算法，比现有的全景分割方法更快，同时分割质量也有一定的竞争力。

用 FPSNet 在不同分辨率图像上实现的全景分割结果。

论文链接：https://arxiv.org/pdf/1910.03892.pdf

在论文中，研究者介绍了这种名为 FPSNet 的全景分割网络。它无需计算成本极高的实例掩码预测或融合启发算法，而是通过将全景任务转换为自定义的像素级密集分类任务来实现，该任务将类别标签或实例 ID 分配给每个像素。他们在 Cityscapes 和 Pascal VOC 数据集上评估了 FPSNet，发现 FPSNet 比现有的全景分割方法速度更快，同时可以实现相似甚至更好的全景分割性能。

在 Cityscapes 验证集上，对于分辨率为 1024x2048 的图像，FPSNet 的预测时间为 114 毫秒（是所有方法中最快的），全景质量得分为 55.1%（所有方法的最佳得分是 60.2%）。对于 Cityscapes 数据集和 Pascal VOC 数据集的较低分辨率图像，FPSNet 分别以每秒 22 和 35 帧的速度运行。

目前的全景分割有什么问题

全景分割的目标是为图像中的每个像素预测类标签和实例 ID，在 thing（图像中有固定形状、可数的物体，如人、车）和 stuff（图像中无固定形状、不可数的物体，如天空、草地）之间进行区分。对于具有可数对象的 thing，实例 ID 用于区分不同的对象。而所有 stuff 类均具有相同的实例 ID，因为图像的这些部分通常是不可数的。

全景分割与语义分割和实例分割的任务紧密相关。当前的全景分割方法利用了这两个任务之间的关系。

在这项工作中，研究者提出了一种用于快速全景分割的端到端深度神经网络架构，该架构能够实现实时的分割任务。

图 1. Cityscapes 验证集上各种方法的预测时间与全景质量。

尽管现有的全景分割方法达到了最高的全景分割质量，但是在速度和计算要求方面仍存在一些不足。首先，融合启发式算法通常在 CPU 上执行，并且需要遍历所有预测，花费的计算成本是巨大的。

其次，这些启发式算法需要实例掩码，并且实例分割预测通常比边界框目标检测的计算开销更大且更耗时。

一种极速的全景分割方案

为了弥补这些不足，埃因霍芬理工大学的研究者提出了快速全景分割网络（FPSNet），这是一种端到端的网络架构，能够学习解决类与实例之间的冲突。它不需要计算成本巨大的实例掩码或融合操作。FPSNet 架构与任何能够生成单一特征图以进行全图像密集分割的目标检测主网络都兼容。

图 2. 在 Cityscapes 验证集上针对不同输入分辨率图像的 FPSNet 预测。 每种颜色表示不同的 thing 实例或 stuff 类别。

他们提出的快速的全景分割架构 FPSNet 具有以下特性：

使用全新的架构进行端到端全景分割，不需要实例掩码预测或融合启发式算法。

比现有方法速度更快，同时达到类似或更好的全景分割质量。

快速全景分割网络

为了实现快速全景分割，研究者的目标是省略以下步骤：

进行实例分割预测；
合并或拆分预测的后处理步骤。

他们通过引入新型卷积神经网络模块（panoptic head）来实现这一目标。此模块有两个输入：1）可以在其上执行密集分割的特征图，2）表示 thing 实例存在的注意力掩码，以及与这些实例相对应的类，它们是从常规边界框目标检测器中获得的。

由此，模型被训练为：1）对 stuff 类执行语义分割；2）将注意力掩码变为 thing 实例的完整像素级实例掩码；3）在单一特征图中输出 stuff 类和 thing 实例的预测，我们可以在其上进行像素级分类。该模块与所需的特征提取器和边界框目标检测器一起在单个网络中进行了端到端训练。

图 3. FPSNet 架构概述。 尺寸表示输入图像上的空间步长（如 1/8）和特征深度（如 128）。 ⊕表示逐元素加法。 在训练过程中，仅在两个强调的区域（detection head 和 panoptic head）加入损失。 虚线表示在训练过程中该路径中没有梯度流动。

在用于快速全景分割的新型全景模块中，假设有来自普通目标检测器的边界框目标检测，以及应用密集图像分割的单个特征图。边界框用于生成注意力掩码，以显示物体在图像中的位置，并确定物体在输出时的顺序。

首先将注意力掩码进行变换，然后连接到特征图，最后将其应用于全卷积网络，即 panoptic head。panoptic head 的架构如图 5 所示。

图 5.panoptic head 架构。

实验

为验证 FPSNet 并评估其性能，研究者进行了以下实验：

速度和精度：由于 FPSNet 是为速度和精度而设计的，因此研究者通过不同分辨率的图像进行评估，并与现有方法进行比较。实验中用到的是 Cityscapes 数据集 [25]。

控制变量研究：研究者进行了控制变量实验，展示了各种设计选择的效果，即注意力掩码变换、使用强注意力掩码以及调整 Natt 和 Catt。研究者也在 Cityscapes 数据集上进行了评估。

在 Pascal VOC 上的性能：为了证明 FPSNet 的普遍适用性，研究者在 Pascal VOC 数据集上进行了评估 [26]。

在下表 I 中，他们列出了 FPSNet 和现有方法的 PQ 得分和预测时间。除非另有说明，否则所有分数和预测时间均与各篇论文一致。从表 I 可以看出，FPSNet 比现有的全景分割方法要快得多，同时仍能在全景质量上有一定竞争力。

在下表 II 中，他们将 FPSNet 与目前最优的全景分割方法进行了比较。他们还比较了使用 ImageNet 初始化和类似主网络的方法。由此可见，尽管重点是快速全景分割，但 FPSNet 在全景分割质量上仍具有一定竞争力。

研究者还在 Cityscapes 验证集上进行了一系列控制变量实验。他们使用从检测分支输出收集的原始注意力掩码和使用 ground-truth 边界框生成的注意力掩码来评估该方法。

他们在 Pascal VOC 2012 上评估了结果，并在 PQ 和总预测时间方面与表 V 中的其他方法进行了比较。

图 7. FPSNet 在 Pascal VOC 2012 验证集中进行的示例预测。 每种颜色表示不同的 thing 实例。

重磅！图像分割学术交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡）