全景分割任务介绍及其最新进展【附PPT与视频资料】

2018 年 12 月 5 日 人工智能前沿讲习班

关注文章公众号

回复"李彦玮"获取PPT与视频资料

视频资料可点击下方阅读原文在线观看


导读


对图像场景的准确理解和建模是人们一直以来的诉求,这是因为精确的场景模型是后续高层的智能安防及自动驾驶任务的基础。目前对于场景的像素级理解主要包括了实例分割和语义分割,而新提出的全景分割(Panoptic Segmentation)则对这两个任务进行了统一,推动了对场景的全面理解。此次分享的文章主要关于全景分割任务介绍及其进展。


作者简介


李彦玮,中国科学院自动化研究所在读硕士,本科毕业于中南大学,ECCV2018 COCO Panoptic Segmentation ChallengeCaribbean 团队(第二名)第一作者。目前主要研究兴趣在图像的语义分割以及全景分割等场景理解方向。


1.Introduction


1.1 Background

场景理解在计算机视觉中是一个基础但充满挑战的任务,其在诸如自动驾驶及机器人等任务上有重要的应用。传统的场景理解(Scene Understanding)的任务主要解决了物体是什么、在哪里(目标检测, Object Detection),物体更加精细的轮廓是怎样的(实例分割, Instance Segmentation),整个场景中环境信息是怎样的(语义分割, Semantic Segmentation)。自然而然地,怎样对整个场景进行统一的感知(全景分割, Panoptic Segmentation)成为人们所关心的问题。最近,全面的场景理解也被诸如MicroSoft Research, FaceBook AI Research等研究机构所重视。

1.2 Problem Formulation

全景分割任务最先由FAIR的Alexander及Kaiming等人在今年年初时提出[1],其定义如下图所示:

对于给定的输入图像(a),传统的语义分割(b)给每个像素分配一个语义标签(如图(b)中的人,车,树,天空等等),而传统的实例分割(c)不考虑背景信息,给每个前景的每个像素分配一个实例的ID(如图(c)中每一个车和人都分配单独的ID)。相对于前两个任务,全景分割(c)同时考虑了背景的语义信息和前景的实例信息,或者说全景分割任务对图像中每一个像素分配一个语义的标签和一个实例的ID。用原文的话说“The definition of ‘panoptic’ is “including everything visible in one view”。全景分割任务不是语义分割和实例分割的简单叠加,这在其的评测标准中会有所体现。

1.3 Evaluation Metric

全景分割主要使用PanopticQuality (PQ)进行评测,其中PQ主要有衡量了分割质量SegmentationQuality (SQ)和识别质量Recognition Quality (RQ)两个方面,其评测公式如下:

其中,这里的IoU(p,g)是预测的分割p和GroundTruth g的交并比, TP是指IoU>0.5的分割结果,FP (False Positives),和FN (False Negatives)如下图所示:

从评判公式中可以看出,全景分割中引入了统一的识别的指标RQ,而传统语义分割评测指标mIoU并未显式地考虑这个问题。因此全景分割任务相对于语义更加接近于对场景全局理解。


2.Related Works


由于全景分割是最新提出的任务,相关的方法并不多,主要有以下工作:

2.1 Panoptic Segmentation Benchmark

在提出全景分割任务的文章中[1],作者给出了全景分割的benchmark,即结合最好的实例分割 (如Mask R-CNN [2]) 和语义分割 (如PSPNet [3]) 模型,通过后处理的方式来生成全景分割的结果。由于使用了两个最好的模型,所生成的全景分割结果也不错。作者在这里将目前最好的算法所生成的结果与人工标注的指标进行对比,如下表所示:

可以看出当前最好的实例分割和语义分割网络与人类在分割质量SQ方面相差不大,但在识别质量RQ上有很大的差距,这也为后续的工作指明了方向。

2.2 Weakly-and Semi-Supervised Panoptic Segmentation

这篇文章[4]是ECCV2018上发表的文章,可以看做是对作者之前工作[5]的一个拓展,即基于语义分割的结果来解决实例分割的问题,如下图所示:

而本文[4]将这种结构进行扩展来解决全景分割的问题,如下图所示:

由于这种Bottom-Up进行实例分割的网络本身就含有了语义信息,因此生成全景的结果是个自然而然的过程。本文使用条件随机场 (Conditional Random Field , CRF)来赋予初始的语义分割结果(基于DeepLab [6])实例标签,其能量函数定义:

这里作者在做CRF时考虑了detection的结果和全局信息,这里就不进行展开,感兴趣的读者可以阅读原文[4]。

2.3 COCO2018 Panoptic Segmentation Challenge

MS-COCO(Common Objects in Context) 是计算机视觉领域最为知名的数据集之一,其每年所举办的比赛也是视觉领域的顶尖竞赛。COCO 2018中新加入了全景分割的比赛,其中train set有110k图片,val set有5k图片,test-dev和test-challenge均有20k图片。在今年的全景分割比赛中,前三名队伍的方案均使用了两个网络来解决实例分割和语义分割问题,并在两个网络上分别提升性能。我们所设计的解决方案如下:

在实际竞赛中,前三名获胜队伍均将语义分割和实例分割的基础网络(FPN-based backbone [7])分为两部分训练,具体方法可参见: http://cocodataset.org/workshop/coco-mapillary-eccv-2018.html


3.Take Home Message


全景分割作为一个新的任务,刚提出就受到了广泛的关注。当前解决全景分割的方法仍集中在基于原有的语义分割和实例分割模型,因此怎样在一个网络中使用End-to-End的框架同时生成并优化前景和背景是全景分割中亟需解决的问题;其次,怎样使用网络来推断场景中物体的相对位置(如多个人和车之间的先后覆盖关系)或者说怎样生成non-overlapping的分割结果[5,8,9,10]也是重要的发展方向。


Reference


[1]A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar. Panopticsegmentation. arXiv:1801.00868, 2018.

[2]K. He, G. Gkioxari, P. Doll´ar, and R. Girshick. Mask r-cnn. In ICCV, 2017.

[3]H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. Pyramid scene parsing network. In CVPR, 2017.

[4]Q. Li, A. Arnab, and P. H. Torr. Weakly-and semi-supervised panopticsegmentation. In ECCV, 2018.

[5]Arnab, A., Torr, P.H.S.: Pixelwise instance segmentation with a dynamicallyinstantiated

network.In CVPR, 2017.

[6]Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Semanticimage segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

[7]T.-Y. Lin, P. Doll´ar, R. B. Girshick, K. He, B. Hariharan, and S. J. Belongie.Feature pyramid networks for object detection. In CVPR, 2017.

[8]M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. InCVPR, 2017.

[9]A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and C. Rother. InstanceCut:from edges to instances with multicut. In CVPR,2017.

[10]S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networksfor instance segmentation. In CVPR,2017.


SFFAI讲者招募


为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!


有意加入者请与我们联系:wangxl@mustedu.cn


历史文章推荐:

AI综述专栏 | 非精确图匹配方法综述

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

SFFAI分享 | 曹杰:Rotating is Believing

SFFAI分享 | 黄怀波 :自省变分自编码器理论及其在图像生成上的应用

AI综述专栏 | 深度神经网络加速与压缩

SFFAI分享 | 田正坤 :Seq2Seq模型在语音识别中的应用

SFFAI 分享 | 王克欣 : 详解记忆增强神经网络

SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展

SFFAI 分享 | 李宏扬 :二阶信息在图像分类中的应用

登录查看更多
11

相关内容

最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
漫谈全景分割
PaperWeekly
11+阅读 · 2019年3月14日
图卷积网络介绍及进展【附PPT与视频资料】
人工智能前沿讲习班
24+阅读 · 2019年1月3日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
Image Segmentation Using Deep Learning: A Survey
Arxiv
45+阅读 · 2020年1月15日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
5+阅读 · 2016年10月24日
VIP会员
相关VIP内容
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
零样本图像分类综述 : 十年进展
专知会员服务
126+阅读 · 2019年11月16日
深度学习视频中多目标跟踪:论文综述
专知会员服务
92+阅读 · 2019年10月13日
相关资讯
漫谈全景分割
PaperWeekly
11+阅读 · 2019年3月14日
图卷积网络介绍及进展【附PPT与视频资料】
人工智能前沿讲习班
24+阅读 · 2019年1月3日
基于深度学习的目标检测算法剖析与实现【附PPT与视频资料】
人工智能前沿讲习班
12+阅读 · 2018年12月25日
全景分割这一年,端到端之路
机器之心
14+阅读 · 2018年12月24日
自注意力机制在计算机视觉中的应用【附PPT与视频资料】
人工智能前沿讲习班
17+阅读 · 2018年12月20日
基于视频的目标检测的发展【附PPT与视频资料】
人工智能前沿讲习班
19+阅读 · 2018年12月14日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
Top
微信扫码咨询专知VIP会员