速度提升一倍，无需实例掩码预测即可实现全景分割

2019 年 10 月 20 日 极市平台

加入极市专业CV交流群，与6000+来自腾讯，华为，百度，北大，清华，中科院等名企名校视觉开发者互动交流！更有机会与李开复老师等大牛群内互动！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

来源：机器之心

作者：Daan de Geus等

参与：高璇、张倩

全景分割是图像分割的一个子领域，是语义分割和实例分割的结合。在这篇论文中，来自荷兰埃因霍芬理工大学的研究者提出了一种用于快速全景分割的端到端网络——FPSNet。该网络无需计算成本极高的实例掩码预测或融合启发算法，比现有的全景分割方法更快，同时分割质量也有一定的竞争力。

用 FPSNet 在不同分辨率图像上实现的全景分割结果。

论文链接：https://arxiv.org/pdf/1910.03892.pdf

在论文中，研究者介绍了这种名为 FPSNet 的全景分割网络。它无需计算成本极高的实例掩码预测或融合启发算法，而是通过将全景任务转换为自定义的像素级密集分类任务来实现，该任务将类别标签或实例 ID 分配给每个像素。他们在 Cityscapes 和 Pascal VOC 数据集上评估了 FPSNet，发现 FPSNet 比现有的全景分割方法速度更快，同时可以实现相似甚至更好的全景分割性能。

在 Cityscapes 验证集上，对于分辨率为 1024x2048 的图像，FPSNet 的预测时间为 114 毫秒（是所有方法中最快的），全景质量得分为 55.1%（所有方法的最佳得分是 60.2%）。对于 Cityscapes 数据集和 Pascal VOC 数据集的较低分辨率图像，FPSNet 分别以每秒 22 和 35 帧的速度运行。

目前的全景分割有什么问题

全景分割的目标是为图像中的每个像素预测类标签和实例 ID，在 thing（图像中有固定形状、可数的物体，如人、车）和 stuff（图像中无固定形状、不可数的物体，如天空、草地）之间进行区分。对于具有可数对象的 thing，实例 ID 用于区分不同的对象。而所有 stuff 类均具有相同的实例 ID，因为图像的这些部分通常是不可数的。

全景分割与语义分割和实例分割的任务紧密相关。当前的全景分割方法利用了这两个任务之间的关系。

在这项工作中，研究者提出了一种用于快速全景分割的端到端深度神经网络架构，该架构能够实现实时的分割任务。

图 1. Cityscapes 验证集上各种方法的预测时间与全景质量。

尽管现有的全景分割方法达到了最高的全景分割质量，但是在速度和计算要求方面仍存在一些不足。首先，融合启发式算法通常在 CPU 上执行，并且需要遍历所有预测，花费的计算成本是巨大的。

其次，这些启发式算法需要实例掩码，并且实例分割预测通常比边界框目标检测的计算开销更大且更耗时。

一种极速的全景分割方案

为了弥补这些不足，埃因霍芬理工大学的研究者提出了快速全景分割网络（FPSNet），这是一种端到端的网络架构，能够学习解决类与实例之间的冲突。它不需要计算成本巨大的实例掩码或融合操作。FPSNet 架构与任何能够生成单一特征图以进行全图像密集分割的目标检测主网络都兼容。

图 2. 在 Cityscapes 验证集上针对不同输入分辨率图像的 FPSNet 预测。 每种颜色表示不同的 thing 实例或 stuff 类别。

他们提出的快速的全景分割架构 FPSNet 具有以下特性：

使用全新的架构进行端到端全景分割，不需要实例掩码预测或融合启发式算法。

比现有方法速度更快，同时达到类似或更好的全景分割质量。

快速全景分割网络

为了实现快速全景分割，研究者的目标是省略以下步骤：

进行实例分割预测；
合并或拆分预测的后处理步骤。

他们通过引入新型卷积神经网络模块（panoptic head）来实现这一目标。此模块有两个输入：1）可以在其上执行密集分割的特征图，2）表示 thing 实例存在的注意力掩码，以及与这些实例相对应的类，它们是从常规边界框目标检测器中获得的。

由此，模型被训练为：1）对 stuff 类执行语义分割；2）将注意力掩码变为 thing 实例的完整像素级实例掩码；3）在单一特征图中输出 stuff 类和 thing 实例的预测，我们可以在其上进行像素级分类。该模块与所需的特征提取器和边界框目标检测器一起在单个网络中进行了端到端训练。

图 3. FPSNet 架构概述。 尺寸表示输入图像上的空间步长（如 1/8）和特征深度（如 128）。 ⊕表示逐元素加法。 在训练过程中，仅在两个强调的区域（detection head 和 panoptic head）加入损失。 虚线表示在训练过程中该路径中没有梯度流动。

在用于快速全景分割的新型全景模块中，假设有来自普通目标检测器的边界框目标检测，以及应用密集图像分割的单个特征图。边界框用于生成注意力掩码，以显示物体在图像中的位置，并确定物体在输出时的顺序。

首先将注意力掩码进行变换，然后连接到特征图，最后将其应用于全卷积网络，即 panoptic head。panoptic head 的架构如图 5 所示。

图 5.panoptic head 架构。

实验

为验证 FPSNet 并评估其性能，研究者进行了以下实验：

速度和精度：由于 FPSNet 是为速度和精度而设计的，因此研究者通过不同分辨率的图像进行评估，并与现有方法进行比较。实验中用到的是 Cityscapes 数据集 [25]。

控制变量研究：研究者进行了控制变量实验，展示了各种设计选择的效果，即注意力掩码变换、使用强注意力掩码以及调整 Natt 和 Catt。研究者也在 Cityscapes 数据集上进行了评估。

在 Pascal VOC 上的性能：为了证明 FPSNet 的普遍适用性，研究者在 Pascal VOC 数据集上进行了评估 [26]。

在下表 I 中，他们列出了 FPSNet 和现有方法的 PQ 得分和预测时间。除非另有说明，否则所有分数和预测时间均与各篇论文一致。从表 I 可以看出，FPSNet 比现有的全景分割方法要快得多，同时仍能在全景质量上有一定竞争力。

在下表 II 中，他们将 FPSNet 与目前最优的全景分割方法进行了比较。他们还比较了使用 ImageNet 初始化和类似主网络的方法。由此可见，尽管重点是快速全景分割，但 FPSNet 在全景分割质量上仍具有一定竞争力。

研究者还在 Cityscapes 验证集上进行了一系列控制变量实验。他们使用从检测分支输出收集的原始注意力掩码和使用 ground-truth 边界框生成的注意力掩码来评估该方法。

他们在 Pascal VOC 2012 上评估了结果，并在 PQ 和总预测时间方面与表 V 中的其他方法进行了比较。

图 7. FPSNet 在 Pascal VOC 2012 验证集中进行的示例预测。 每种颜色表示不同的 thing 实例。

-End-

*延伸阅读

语义分割中的Attention和低秩重建

图像分割交流群

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可进群。（已经添加小助手的好友直接私信）

△长按添加极市小助手

其他方向如目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM等，也可扫码添加极市小助手拉你进群，更有每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流，一起来让思想之光照的更远吧~

△长按关注极市平台

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

全景分割

关注 1

【CVPR2020】通过获取高质量的关键点对来提升目标检测性能

专知会员服务

44+阅读 · 2020年6月30日

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

高效医疗图像分析的统一表示

专知会员服务

36+阅读 · 2020年6月23日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【CVPR2020-香港中文大学】PointGroup:用于3D实例分割的双设置点分组，PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation

专知会员服务

12+阅读 · 2020年4月6日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

专知会员服务

28+阅读 · 2019年12月19日

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

病理图像的全景分割

人工智能前沿讲习班

16+阅读 · 2019年6月1日

【泡泡点云时空】联合分割点云中的实例和语义

泡泡机器人SLAM

7+阅读 · 2019年4月27日

CVPR2019 | 全景分割：Attention-guided Unified Network

极市平台

9+阅读 · 2019年3月3日

鱼与熊掌可以兼得：何恺明等人一统语义分割与实例分割

机器之心

8+阅读 · 2019年1月11日

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

分割算法——可以分割一切目标（各种分割总结）

计算机视觉战队

6+阅读 · 2018年9月22日

双重注意力网络：中科院自动化所提出新的自然场景图像分割框架（附源码）

极市平台

7+阅读 · 2018年9月19日

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

人工智能学家

11+阅读 · 2018年1月6日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

Learning Dynamic Routing for Semantic Segmentation

Arxiv

8+阅读 · 2020年3月23日

Transfer Adaptation Learning: A Decade Survey

Arxiv

37+阅读 · 2019年3月12日

Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images

Arxiv

6+阅读 · 2018年7月19日

Recursive Neural Network Based Preordering for English-to-Japanese Machine Translation

Arxiv

7+阅读 · 2018年5月25日

Convolutional CRFs for Semantic Segmentation

Arxiv

8+阅读 · 2018年5月15日

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Arxiv

5+阅读 · 2018年4月3日

MLtuner: System Support for Automatic Machine Learning Tuning

Arxiv

3+阅读 · 2018年3月20日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

Learning Deep Structured Multi-Scale Features using Attention-Gated CRFs for Contour Prediction

Arxiv

4+阅读 · 2018年1月1日

VIP会员

速度提升一倍，无需实例掩码预测即可实现全景分割

目前的全景分割有什么问题

一种极速的全景分割方案

快速全景分割网络

实验

在分类、检测、分割任务均有SOTA表现的ACNet究竟有多强？

相关内容