干货 | 浙大博士生刘汉唐带你回顾图像分割的经典算法

2018 年 1 月 16 日 AI科技评论 杨文

AI科技评论按：图像语义分割是 AI 领域中一个重要的分支，是机器视觉技术中关于图像理解的重要一环。近年的自动驾驶技术中，也需要用到这种技术。车载摄像头探查到图像，后台计算机可以自动将图像分割归类，以避让行人和车辆等障碍。随着近些年深度学习的火热，使得图像分割有了巨大的发展，本文为大家介绍深度学习中图像分割的经典算法。

在近期 GAIR 大讲堂上，来自浙江大学的在读博士生刘汉唐为等候在直播间的同学们做了一场主题为「图像分割的经典算法」的技术分享，本文根据直播分享内容整理而成，同学们如果对嘉宾所讲的内容感兴趣还可以在 AI 慕课学院观看直播回放。（更多细节推荐点击阅读原文观看视频回放）

刘汉唐，浙江大学计算机系博士生在读，阿里巴巴 iDST 实习生。研究方向是计算机视觉、深度学习。个人公众号：贾维斯的日常（jarvisdaily）。

分享提纲：

图像分割的问题定义，以及在实际场景中的应用样例

全卷积网络

双线性上采样

特征金字塔

Mask-RCNN

大家好，我是浙江大学在读博士生刘汉唐，目前在阿里巴巴 iDST 实习。接下来的分享首先会为大家介绍图像分割具体是做什么的，图像分割有哪些应用场景以及做图像分割实验经常用到的几个数据集。

最后再讲解图像分割的几个方法。分为两个部分，第一部分是传统视觉的图分割算法，虽然现在很少用，但自认为算法比较优美。第二部分是深度学习算法，会介绍最近几年流行的经典技巧。

什么是图像分割？

图像分割就是预测图像中每一个像素所属的类别或者物体。图像分割有两个子问题，一个是只预测类别层面的分割，对每个像素标出一个位置。第二个是区分不同物体的个体。

应用场景，比如自动驾驶，3D 地图重建，美化图片，人脸建模等等。

最常用的数据集

主要介绍三个：Pascal VOC；CityScapes；MSCOCO。

第一个是 Pascal VOC 数据集

这是一个比较老牌的数据集，它提供 20 个类别，包括，人，车等。有 6929 张标注图片，提供了类别层面的标注和个体层面的标注，也就是说既可以做语义分割，只区分是不是车；也可以做个体分割，区分有几辆车，把不同的车标记出来。

第二个是CityScapes数据集

主要面向道路驾驶场景，它有 30 个精细的类别。其中有 5000 张图片进行了精细标注，精确到像素级别。还有 20000 张图片有粗糙的标注。它也可以提供语义层面分割和个体层面分割。

第三个是MS COCO数据集

这是目前为止有语义分割的最大数据集，提供的类别有 80 类，有超过 33 万张图片，其中 20 万张有标注，整个数据集中个体的数目超过 150 万个，最新的一些论文都会在 MSCOCO 数据集上做实验，因为它的难度最大，挑战新最高。

传统的图切割

图切割就是移除一些边，使得两个子图不相连；图切割的目标是，找到一个切割，使得移除边的和权重最小。

图切割的优点和缺点

优点是分割效果还不错，并且是一种普适性的框架，适合各种特征。缺点是时间复杂度和空间复杂度较高，需要事先选取分割块儿的数目。

图切割的失败案列

为了克服这个失败，有一篇论文提出了 Normalized Cut。它是在图分割中加入权重参数 Volume。Volume(A) 是 A 中所有边的权重之和。这种方法平衡了每一个子图的大小。

深度学习算法

第一篇比较成功用神经网络做图像分割的论文是 Fully Convolutional Networks (以下简称为 FCN)。

传统神经网络做分类的步骤是，首先是一个图像进来之后经过多层卷积得到降维之后的特征图，这个特征图经过全连接层变成一个分类器，最后输出一个类别的向量，这就是分类的结果。

而 FCN 是把所有的全连接层换成卷基层，原来只能输出一个类别分类的网络可以在特征图的每一个像素输出一个分类结果。这样就把分类的向量，变成了一个分类的特征图。

为了能让分类的特征图恢复到原图的大小，采用了上采样层。具体细节可观看视频回放。

FCN的结构图

下面介绍一下怎么进行图片放大操作的。

这里有两个概念，第一个概念叫反卷积层（Deconvolution）；第二个概念叫双线性差值上采样（Bilinear Upsampling）。

这里的「反卷积」其实不是真正的卷积的逆运算，用 Transposed Convolution 代替比较合适，但原论文中用的是 Deconvolution，我们下面还是用这个词，它可以等效于普通卷积。它的主要目的就是实现上采样。

反卷积具体是怎么计算的，详细过程可到AI慕课学院免费观看视频回放。

下面讲一下Padding和Stride。

Padding和Stride实际指的是普通卷积，而不是反卷积等效的普通卷积。

双线性上采样差

双线性上采样差值的三个用途：用作初始化反卷积的权重；不用反卷积，使用上卷积+卷积；只使用上采样。

下面介绍膨胀卷积或带洞卷积（Dilated Convolution ）。

它的用途可以使特征图视野变大，但不增加计算量，对于图像分割的好处，更利于提取全局信息，这样就使得分割准确率增加很多。

特征金字塔（Feature Pyramid）

有以下几种特征金字塔

特征金字塔网络

Pyramid Pooling

前面的是在不同的尺度上提取特征，而这个是把特征提取之后pooling到不同的大小。

Mask-RCNN的特点

第一个特点它是多分支输出的。它同时输出物体的类别，bounding box和Mask。

第二个特点是它使用了Binary Mask。之前神经网络都是使用多类Mask，而它只需要判断物体在哪个地方。

最后是RoiAlign层。能比较精确地把物体的位置对应到特征图的位置上。

Rol Pooling 与Roi Align的比较

AI 科技评论注：点击阅读原文，观看本场分享完整回放。

————— 新人福利 —————

关注AI 科技评论，回复 1 获取

【数百 G 神经网络 / AI / 大数据资源，教程，论文】

————— AI 科技评论招人了 —————

AI 科技评论期待你的加入，和我们一起见证未来！

现诚招学术编辑、学术兼职、学术外翻

详情请点击招聘启事

————— 给爱学习的你的福利 —————

CCF ADL 系列又一诚意课程

两位全球计算机领域Top 10大神加盟

——韩家炜 & Philip S Yu

共13位专家，覆盖计算机学科研究热点

▼▼▼

————————————————————

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【经典书】算法基础：打开算法之门，Algorithm unlocked，237页pdf

专知会员服务

146+阅读 · 2020年7月3日

深度学习目标检测方法及其主流框架综述

专知会员服务

148+阅读 · 2020年6月26日

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

【天津大学】知识图谱划分算法研究综述

专知会员服务

111+阅读 · 2020年4月27日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

【北卡罗莱纳州立大学】单场景视频异常检测综述，A Survey of Single-Scene Video Anomaly Detection

专知会员服务

31+阅读 · 2020年4月13日

纽约大学发布「深度学习图像分割」最新进展综述论文，带你全面了解10类方法100个深度图像分割算法

专知会员服务

104+阅读 · 2020年1月19日

【浙江大学】对抗样本生成技术综述

专知会员服务

92+阅读 · 2020年1月6日

自动驾驶汽车的计算机视觉全面综述论文：问题、数据集和现状，附283页PDF下载

专知会员服务

113+阅读 · 2019年12月20日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

最全综述 | 图像分割算法

极市平台

23+阅读 · 2019年6月23日

干货 | 图像分割概述 & ENet 实例

AI科技评论

22+阅读 · 2019年2月24日

全景分割这一年，端到端之路

机器之心

14+阅读 · 2018年12月24日

全景分割任务介绍及其最新进展【附PPT与视频资料】

人工智能前沿讲习班

11+阅读 · 2018年12月5日

干货 | 基于深度学习的目标检测算法综述

AI科技评论

18+阅读 · 2018年9月1日

基于深度学习的目标检测算法综述

AI研习社

15+阅读 · 2018年4月25日

直播 | 明晚八点！听浙大博士生刘汉唐介绍图像分割的经典算法

AI科技评论

8+阅读 · 2018年1月8日

干货｜深度网络图像分割通俗指南

全球人工智能

7+阅读 · 2017年11月7日

干货｜深度学习目标检测的主要问题和挑战！

全球人工智能

6+阅读 · 2017年9月6日

干货 | 目标识别算法的进展

计算机视觉战队

17+阅读 · 2017年6月29日

Real-time Scalable Dense Surfel Mapping

Arxiv

5+阅读 · 2019年9月10日

Meta-Learning with Differentiable Convex Optimization

Arxiv

5+阅读 · 2019年4月23日

S4Net: Single Stage Salient-Instance Segmentation

Arxiv

10+阅读 · 2019年4月10日

Progressive Sparse Local Attention for Video object detection

Arxiv

4+阅读 · 2019年3月21日

DC-SPP-YOLO: Dense Connection and Spatial Pyramid Pooling Based YOLO for Object Detection

Arxiv

3+阅读 · 2019年3月20日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Car Detection using Unmanned Aerial Vehicles: Comparison between Faster R-CNN and YOLOv3

Arxiv

3+阅读 · 2018年12月28日

Self Paced Deep Learning for Weakly Supervised Object Detection

Arxiv

8+阅读 · 2018年2月21日

Face Detection Using Improved Faster RCNN

Arxiv

6+阅读 · 2018年2月6日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

VIP会员

干货 | 浙大博士生刘汉唐带你回顾图像分割的经典算法

相关内容

知识荟萃

更多