业界 | 谷歌最新语义图像分割模型DeepLab-v3+今日开源

2018 年 3 月 13 日 机器之心

选自Google Research Blog

作者:Liang-Chieh Chen、Yukun Zhu

机器之心编译

参与:刘晓坤、路雪


刚刚,谷歌开源了语义图像分割模型 DeepLab-v3+,DeepLab-v3+结合了空间金字塔池化模块和编码器-解码器结构的优势,是自三年前的 DeepLab 以来的最新、性能最优的版本。


GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab

语义图像分割任务是指将语义标签(例如「道路」、「天空」、「人」、「狗」)分配给图像中的每一个像素,这种技术有很多新应用,例如,Pixel 2 和 Pixel 2 XL 智能手机中肖像模式的合成浅景深效应,以及移动设备的实时语义分割等。分配这些语义标签的时候需要精准定位目标的轮廓,因此相比其他的视觉实体识别任务(如图像级分类或边界框级检测等),该任务需要更高的定位准确率。


今天,谷歌开源了其最新、性能最优的语义图像分割模型 DeepLab-v3+ [1],该模型使用 TensorFlow 实现。DeepLab-v3+ 模型建立在一种强大的卷积神经网络主干架构上 [2,3],以得到最准确的结果,该模型适用于服务器端的部署。此外,谷歌还分享了他们的 TensorFlow 模型训练和评估代码,以及在 Pascal VOC 2012 和 Cityscapes 基准语义分割任务上预训练的模型。

自三年前谷歌发布第一个版本的 DeepLab 模型 [4] 以来,CNN 特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化,促使该模型升级到了 DeepLab-v2 [5] 和 DeepLab-v3 [6]。谷歌通过添加一个简单而有效的解码器模块以精炼分割结果(尤其是在目标边界处),将 DeepLab-v3 扩展为 DeepLab-v3+。他们还进一步将深度可分卷积(depthwise separable convolution)应用到金字塔型的空洞池化(Atrous Spatial Pyramid Pooling,ASPP)[5, 6] 和解码器模块上,以得到更快更强大的语义分割编码器-解码器网络。


现代语义图像分割系统都是建立在卷积神经网络之上,并达到了五年前无法想象的准确率,这得归功于方法、硬件和数据集的优化。谷歌希望通过和社区共享该系统,学界和业界能更容易地复现和提升当前最优系统,在新的数据集上训练模型,以及为该技术开发新的应用。

论文:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation


论文链接:https://arxiv.org/abs/1802.02611

摘要:深度神经网络使用空间金字塔池化模块或编码器-解码器结构执行语义分割任务。前者通过在多个 rate、多个有效视野上用滤波器探测输入特征或执行池化操作,来编码多尺度的上下文信息;后者通过逐渐恢复空间信息来捕捉更加精细的目标边界。在这项研究中,我们将二者的优势结合起来。具体来说,我们通过添加一个简单有效的解码器模块以精炼分割结果(尤其是目标边界),将 DeepLab-v3 扩展为本文提出的新模型 DeepLab-v3+。我们进一步探索了 Xception 模型,并将深度可分卷积应用到金字塔型的空洞池化(ASPP)和解码器模块上,以得到更快更强大的编码器-解码器网络。我们在 PASCAL VOC 2012 语义图像分割数据集上证明了该模型的有效性,在没有任何后处理的情况下该模型达到了 89% 的准确率。

参考阅读:

资源 | 从全连接层到大型卷积核:深度学习语义分割全指南


原文链接:https://research.googleblog.com/2018/03/semantic-image-segmentation-with.html



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):hr@jiqizhixin.com

投稿或寻求报道:editor@jiqizhixin.com

广告&商务合作:bd@jiqizhixin.com

登录查看更多
7

相关内容

语义图像分割:是指像素级地识别图像,即标注出图像中每个像素所属的对象类别。侧重对类型分割识别,如果两个对象是同一类别,则不分割。与之相对应的是实例图像分割,把图像的所有子图都识别分割。
【CMU】深度学习模型中集成优化、约束和控制,33页ppt
专知会员服务
45+阅读 · 2020年5月23日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
斯坦福&谷歌Jeff Dean最新Nature论文:医疗深度学习技术指南
语义分割和转置卷积
AI研习社
10+阅读 · 2018年6月22日
DeepLab V3
计算机视觉战队
9+阅读 · 2018年4月2日
利用DeepLab在Tensorflow中进行语义图像分割
机器学习研究会
9+阅读 · 2018年3月22日
谷歌开源语义图像分割模型DeepLab-v3+ | 附代码
Arxiv
21+阅读 · 2018年5月23日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关资讯
语义分割和转置卷积
AI研习社
10+阅读 · 2018年6月22日
DeepLab V3
计算机视觉战队
9+阅读 · 2018年4月2日
利用DeepLab在Tensorflow中进行语义图像分割
机器学习研究会
9+阅读 · 2018年3月22日
谷歌开源语义图像分割模型DeepLab-v3+ | 附代码
Top
微信扫码咨询专知VIP会员