全景分割任务介绍及其最新进展【附PPT与视频资料】

2018 年 12 月 5 日 人工智能前沿讲习班

关注文章公众号

回复"李彦玮"获取PPT与视频资料

视频资料可点击下方阅读原文在线观看

导读

对图像场景的准确理解和建模是人们一直以来的诉求，这是因为精确的场景模型是后续高层的智能安防及自动驾驶任务的基础。目前对于场景的像素级理解主要包括了实例分割和语义分割，而新提出的全景分割（Panoptic Segmentation）则对这两个任务进行了统一，推动了对场景的全面理解。此次分享的文章主要关于全景分割任务介绍及其进展。

作者简介

李彦玮，中国科学院自动化研究所在读硕士，本科毕业于中南大学，ECCV2018 COCO Panoptic Segmentation ChallengeCaribbean 团队（第二名）第一作者。目前主要研究兴趣在图像的语义分割以及全景分割等场景理解方向。

1.Introduction

1.1 Background

场景理解在计算机视觉中是一个基础但充满挑战的任务，其在诸如自动驾驶及机器人等任务上有重要的应用。传统的场景理解（Scene Understanding）的任务主要解决了物体是什么、在哪里（目标检测, Object Detection），物体更加精细的轮廓是怎样的（实例分割, Instance Segmentation），整个场景中环境信息是怎样的（语义分割, Semantic Segmentation）。自然而然地，怎样对整个场景进行统一的感知（全景分割, Panoptic Segmentation）成为人们所关心的问题。最近，全面的场景理解也被诸如MicroSoft Research, FaceBook AI Research等研究机构所重视。

1.2 Problem Formulation

全景分割任务最先由FAIR的Alexander及Kaiming等人在今年年初时提出[1]，其定义如下图所示：

对于给定的输入图像(a)，传统的语义分割(b)给每个像素分配一个语义标签（如图(b)中的人，车，树，天空等等），而传统的实例分割(c)不考虑背景信息，给每个前景的每个像素分配一个实例的ID（如图(c)中每一个车和人都分配单独的ID）。相对于前两个任务，全景分割(c)同时考虑了背景的语义信息和前景的实例信息，或者说全景分割任务对图像中每一个像素分配一个语义的标签和一个实例的ID。用原文的话说“The definition of ‘panoptic’ is “including everything visible in one view”。全景分割任务不是语义分割和实例分割的简单叠加，这在其的评测标准中会有所体现。

1.3 Evaluation Metric

全景分割主要使用PanopticQuality (PQ)进行评测，其中PQ主要有衡量了分割质量SegmentationQuality (SQ)和识别质量Recognition Quality (RQ)两个方面，其评测公式如下：

其中，这里的IoU(p,g)是预测的分割p和GroundTruth g的交并比, TP是指IoU>0.5的分割结果，FP (False Positives)，和FN (False Negatives)如下图所示：

从评判公式中可以看出，全景分割中引入了统一的识别的指标RQ，而传统语义分割评测指标mIoU并未显式地考虑这个问题。因此全景分割任务相对于语义更加接近于对场景全局理解。

2.Related Works

由于全景分割是最新提出的任务，相关的方法并不多，主要有以下工作：

2.1 Panoptic Segmentation Benchmark

在提出全景分割任务的文章中[1]，作者给出了全景分割的benchmark，即结合最好的实例分割 (如Mask R-CNN [2]) 和语义分割 (如PSPNet [3]) 模型，通过后处理的方式来生成全景分割的结果。由于使用了两个最好的模型，所生成的全景分割结果也不错。作者在这里将目前最好的算法所生成的结果与人工标注的指标进行对比，如下表所示：

可以看出当前最好的实例分割和语义分割网络与人类在分割质量SQ方面相差不大，但在识别质量RQ上有很大的差距，这也为后续的工作指明了方向。

2.2 Weakly-and Semi-Supervised Panoptic Segmentation

这篇文章[4]是ECCV2018上发表的文章，可以看做是对作者之前工作[5]的一个拓展，即基于语义分割的结果来解决实例分割的问题，如下图所示：

而本文[4]将这种结构进行扩展来解决全景分割的问题，如下图所示：

由于这种Bottom-Up进行实例分割的网络本身就含有了语义信息，因此生成全景的结果是个自然而然的过程。本文使用条件随机场 (Conditional Random Field , CRF)来赋予初始的语义分割结果(基于DeepLab [6])实例标签，其能量函数定义：

这里作者在做CRF时考虑了detection的结果和全局信息，这里就不进行展开，感兴趣的读者可以阅读原文[4]。

2.3 COCO2018 Panoptic Segmentation Challenge

MS-COCO(Common Objects in Context) 是计算机视觉领域最为知名的数据集之一，其每年所举办的比赛也是视觉领域的顶尖竞赛。COCO 2018中新加入了全景分割的比赛，其中train set有110k图片，val set有5k图片，test-dev和test-challenge均有20k图片。在今年的全景分割比赛中，前三名队伍的方案均使用了两个网络来解决实例分割和语义分割问题，并在两个网络上分别提升性能。我们所设计的解决方案如下：

在实际竞赛中，前三名获胜队伍均将语义分割和实例分割的基础网络（FPN-based backbone [7]）分为两部分训练，具体方法可参见: http://cocodataset.org/workshop/coco-mapillary-eccv-2018.html

3.Take Home Message

全景分割作为一个新的任务，刚提出就受到了广泛的关注。当前解决全景分割的方法仍集中在基于原有的语义分割和实例分割模型，因此怎样在一个网络中使用End-to-End的框架同时生成并优化前景和背景是全景分割中亟需解决的问题；其次，怎样使用网络来推断场景中物体的相对位置（如多个人和车之间的先后覆盖关系）或者说怎样生成non-overlapping的分割结果[5,8,9,10]也是重要的发展方向。

Reference

[1]A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar. Panopticsegmentation. arXiv:1801.00868, 2018.

[2]K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. Mask r-cnn. In ICCV, 2017.

[3]H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017.

[4]Q. Li, A. Arnab, and P. H. Torr. Weakly-and semi-supervised panopticsegmentation. In ECCV, 2018.

[5]Arnab, A., Torr, P.H.S.: Pixelwise instance segmentation with a dynamicallyinstantiated

network.In CVPR, 2017.

[6]Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semanticimage segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

[7]T.-Y. Lin, P. Doll´ar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie.Feature pyramid networks for object detection. In CVPR, 2017.

[8]M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. InCVPR, 2017.

[9]A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. InstanceCut:from edges to instances with multicut. In CVPR,2017.

[10]S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networksfor instance segmentation. In CVPR,2017.

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求，我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动，邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果，使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展，将对线下讨论的内容进行线上传播，使后来者少踩坑，也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树（AI Knowledge Tree），通过汇总各位参与者贡献的领域知识，沉淀线下分享的前沿精华，使AI Knowledge Tree枝繁叶茂，为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前，衷心期待和感谢您的支持与奉献！

有意加入者请与我们联系：wangxl@mustedu.cn