业界 | 谷歌最新语义图像分割模型DeepLab-v3+今日开源

会员服务 ·

业界 | 谷歌最新语义图像分割模型DeepLab-v3+今日开源

2018 年 3 月 13 日 机器之心

选自Google Research Blog

作者：Liang-Chieh Chen、Yukun Zhu

机器之心编译

参与：刘晓坤、路雪

刚刚，谷歌开源了语义图像分割模型 DeepLab-v3+，DeepLab-v3+结合了空间金字塔池化模块和编码器-解码器结构的优势，是自三年前的 DeepLab 以来的最新、性能最优的版本。

GitHub 地址：https://github.com/tensorflow/models/tree/master/research/deeplab

语义图像分割任务是指将语义标签（例如「道路」、「天空」、「人」、「狗」）分配给图像中的每一个像素，这种技术有很多新应用，例如，Pixel 2 和 Pixel 2 XL 智能手机中肖像模式的合成浅景深效应，以及移动设备的实时语义分割等。分配这些语义标签的时候需要精准定位目标的轮廓，因此相比其他的视觉实体识别任务（如图像级分类或边界框级检测等），该任务需要更高的定位准确率。

今天，谷歌开源了其最新、性能最优的语义图像分割模型 DeepLab-v3+ [1]，该模型使用 TensorFlow 实现。DeepLab-v3+ 模型建立在一种强大的卷积神经网络主干架构上 [2,3]，以得到最准确的结果，该模型适用于服务器端的部署。此外，谷歌还分享了他们的 TensorFlow 模型训练和评估代码，以及在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务上预训练的模型。

自三年前谷歌发布第一个版本的 DeepLab 模型 [4] 以来，CNN 特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化，促使该模型升级到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通过添加一个简单而有效的解码器模块以精炼分割结果（尤其是在目标边界处），将 DeepLab-v3 扩展为 DeepLab-v3+。他们还进一步将深度可分卷积（depthwise separable convolution）应用到金字塔型的空洞池化（Atrous Spatial Pyramid Pooling，ASPP）[5, 6] 和解码器模块上，以得到更快更强大的语义分割编码器-解码器网络。

现代语义图像分割系统都是建立在卷积神经网络之上，并达到了五年前无法想象的准确率，这得归功于方法、硬件和数据集的优化。谷歌希望通过和社区共享该系统，学界和业界能更容易地复现和提升当前最优系统，在新的数据集上训练模型，以及为该技术开发新的应用。

论文：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

论文链接：https://arxiv.org/abs/1802.02611

摘要：深度神经网络使用空间金字塔池化模块或编码器-解码器结构执行语义分割任务。前者通过在多个 rate、多个有效视野上用滤波器探测输入特征或执行池化操作，来编码多尺度的上下文信息；后者通过逐渐恢复空间信息来捕捉更加精细的目标边界。在这项研究中，我们将二者的优势结合起来。具体来说，我们通过添加一个简单有效的解码器模块以精炼分割结果（尤其是目标边界），将 DeepLab-v3 扩展为本文提出的新模型 DeepLab-v3+。我们进一步探索了 Xception 模型，并将深度可分卷积应用到金字塔型的空洞池化（ASPP）和解码器模块上，以得到更快更强大的编码器-解码器网络。我们在 PASCAL VOC 2012 语义图像分割数据集上证明了该模型的有效性，在没有任何后处理的情况下该模型达到了 89% 的准确率。