计算机视觉领域,语义分割是场景解析和行为识别的关键任务,在大量标注训练集的监督训练下,基于深度卷积神经网络的静态图像分类和目标检测已经取得了显著成果。
图图今天推荐一篇发表在《中国图象图形学报》2020年第6期的综述论文《深度卷积神经网络图像语义分割研究进展》,从基于监督学习与弱监督学习两个方面对基于深度卷积神经网络的图像语义分割方法进行了归纳和总结,详细描述了每种方法的创新工作并分析了存在的问题。
不同数据集语义分割示意图
作者:青晨, 禹晶, 肖创柏, 段娟
关键词:语义分割; 卷积神经网络; 监督学习; 弱监督学习
引用格式:青晨, 禹晶, 肖创柏, 段娟. 2020. 深度卷积神经网络图像语义分割研究进展. 中国图象图形学报, 25(6): 1069-1090. [DOI: 10.11834/jig.190355]
语义分割算法性能评价的常用数据集和客观评测指标
现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状
在PASCAL VOC数据集比较监督学习和弱监督学习的语义分割模型
图像语义分割相关领域未来可能的热点方向
1) PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012。PASCAL VOC是计算机视觉领域目标分类、识别和检测的挑战赛,提供检测算法和网络学习性能的标准标注数据集和评估系统。
2) MS COCO(microsoft common objects in context)2015。MS COCO数据集是一个大型的目标检测和语义分割的标注数据集,主要用于场景解析。
3) KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)。KITTI是移动机器人和自动驾驶领域中立体图像、光流、视觉测距、3D目标检测和3D跟踪等计算机视觉技术性能评测的数据集。
4) PASCAL-Part。PASCAL-Part是PASCAL VOC 2010数据集的一组附加标注数据集,为目标的每个部位提供了分割模板。
5) Cityscapes。Cityscapes是从50个不同城市的街道场景中收集的5 000幅高质量图像的像素级标注的大型数据集。
6) CamVid(Cambridge-driving labeled video database)。CamVid是最早应用于自动驾驶领域的语义分割数据集。
7) ADE20K。ADE20K数据集用于场景解析、语义分割、目标识别和语义理解等任务,包括室内和室外场景中的150个类别,训练集和验证集分别包括20 210和2 000幅图像,测试集暂未发布。
8) Sift Flow。Sift Flow数据集中的训练集包括街道、公路、森林、山脉、城市、乡村、海滩和建筑等8种不同户外场景的2 688幅图像,每幅图像的分辨率为256×256像素,包括建筑、大巴车、小汽车、十字路口、草、山、人、植物、杆、河流、公路、人行道、指示牌、天空、路灯、树和窗户等33个类别。验证集和测试集暂未发布。
9) NYUD v2(New York University depth dataset v2)。NYUD v2数据集包括由微软kinect设备捕获的1 449幅室内RGB-D图像,包括3个城市的464种室内场景,分为RGB图像集、深度图像集和RGB-D图像集,共包括室内目标的40个类别。训练集、验证集、测试集分别包括795、414、654幅图像。由于该数据集包含了较多室内场景,可以用于家庭机器人的训练任务。但是,NYUD v2数据集相对于其他数据集规模较小,限制了在深度神经网络中的应用范围。
10) SUN-RGBD(scene understanding-RGBD)。SUN-RGBD数据集包括10 000幅RGB-D图像、146 617个多边形标注、58 657个目标边框标注和大量的空间布局信息和类别信息,共800个类别,包括墙、地板、橱柜、床、椅子、沙发、桌子、窗户、衣服、电视和人等,主要适用于场景理解任务。训练集、验证集、测试集分别包括2 666、2 619、5 050幅图像。
表 1 PASCAL VOC 2012数据集上基于监督学习的语义分割方法性能比较
方法类别 | 方法名称 | MIoU/% |
基于解码器 | SegNet(Badrinarayanan等,2017) | 59.9 |
FCN-8s(Long等,2015) | 62.2 | |
DeconvNet(Noh等,2015) | 72.5 | |
基于特征图 | RefineNet(Lin等,2017) | 84.2 |
PSPNet(Zhao等,2017) | 85.4 | |
DeepLab v3(Chen等,2017) | 85.7 | |
基于概率图 | GCRF-Net(Vemulapalli等,2016) | 73.2 |
CRF-RNN(Zheng等,2015) | 74.7 | |
DPN(Liu等,2015) | 77.5 | |
EncNet(Zhang等,2018) | 85.9 | |
多种策略结合 | DeepLab v1(Chen等,2016) | 71.6 |
FeatMap-Net(Lin等,2016b) | 78.0 | |
DeepLab v2(Chen等,2018a) | 79.7 | |
Bilinski和Prisacariu(2018) | 81.6 | |
GCN(Peng等,2017) | 82.2 | |
DFN(Yu等,2018) | 86.2 | |
DeepLab v3+(Chen等,2018b) | 89.0 |
相关文献请点击阅读原文
表 2 PASCAL VOC 2012数据集上基于弱监督学习的语义分割方法性能比较
方法类别 | 方法名称 | MIoU/% |
基于目标边框 | Dai等人(2015) | 62.0 |
Khoreva等人(2017) | 65.7 | |
基于图像类别标签 | Pathak等人(2015) | 45.1 |
Pinheiro和Collobert(2015) | 40.6 | |
Wei等人(2016a) | 43.2 | |
Durand等人(2017) | 43.7 | |
AE(Wei等,2017a) | 55.7 | |
STC(Wei等,2017b) | 51.2 | |
Roy和Todorovic(2017) | 53.7 | |
Oh等人(2017) | 56.7 | |
Hong等人(2017) | 58.7 | |
Wang等人(2018) | 61.2 | |
Huang等人(2018) | 63.2 | |
Shen等人(2018) | 63.9 | |
基于草图 | Lin等人(2016a) | 63.1 |
Tang等人(2018) | 74.5 | |
基于多种标注信息 | Papandreou等人(2015) | 62.2 |
相关文献请点击阅读原文
基于深度卷积神经网络的图像语义分割模型已经取得了一定的进展,随着图像语义分割的不断发展,未来的研究热点进一步转向视频语义分割、三维点集语义分割、实时语义分割和实例分割等研究方向,这些研究方向具有更大的挑战性。
1)视频语义分割。视频的语义分割能够为智能交通、智能监控、智能医疗等领域提供理论和技术的支持。虽然研究学者已经提出了一些针对视频或时间序列进行语义分割的方法。然而,目前主要的瓶颈在于没有完全利用视频帧或者特征图中的时空信息。因此在视频语义分割领域,有着更加广阔的发展空间。
2)三维数据集语义分割。三维数据集相比于二维数据集包含了图像更多的信息,比如目标的远近和目标之间的距离。但三维数据难以获取,并且标注工作也更难。目前的三维数据集并不多,而且大型三维数据集几乎都是人工合成的,这与真实世界收集的三维数据有很大不同,导致基于三维数据集的分割方法还有很大提升空间。因此,在语义分割领域仍然需要更多、更好、更丰富的三维数据集。
3)实时语义分割。实时语义分割方法可应用于自动驾驶、遥感、医学图像识别等领域。现有许多语义分割方法虽然在分割精度方面取得了较大的进展,但由于训练模型较为复杂,参与训练的参数多,以及训练时间较长等问题,很难达到实时的语义分割预测。因此,如何在分割精度和运行时间之间进行权衡,在保证分割精度的条件下,简化模型,减少训练参数,缩短运行时间,实现实时的语义分割,是未来的一个研究方向之一。
4)实例分割(Instance segmentation)。实例分割和语义分割的不同之处在于,实例分割不仅需要对图像中不同的语义目标进行分割,同时还要求对同一语义的不同个体进行分割。实例分割要求从图像中识别出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记。实例分割相比于语义分割更具有挑战性,同时也具有更广阔的应用前景。
回放平台:
知网在线教学服务平台:
http://k.cnki.net/Room/Home/Index/181822
B站:
https://space.bilibili.com/27032291
往期目录:
汪荣贵——机器学习基本知识体系与入门方法
陈强——从Cell封面论文谈AI研究中的实验数据问题
石争浩——从先验到深度:低见度图像增强
行知论坛——南理工行知论坛&图图Seminar:智能画质增强专题
孙显——遥感图像智能分析:方法与应用
章国锋——视觉SLAM在AR应用上的关键性问题探讨
林宙辰——机器学习中优化算法前沿简介
白相志,冯朝路——“医学图像与人工智能”主题论坛
看完微推意犹未尽?
扫码加入图图社区,优享最新资讯
本文系《中国图象图形学报》独家稿件
内容仅供学习交流
版权属于原作者
欢迎大家关注转发!
编辑:韩小荷
指导:梧桐君
审校:夏薇薇
总编辑:肖 亮
声 明
欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。