如何用PyTorch进行语义分割？一个教程教会你｜资源

会员服务 ·

如何用PyTorch进行语义分割？一个教程教会你｜资源

2020 年 11 月 28 日 量子位

木易发自凹非寺
量子位报道 | 公众号 QbitAI

很久没给大家带来教程资源啦。

正值PyTorch 1.7更新，那么我们这次便给大家带来一个PyTorch简单实用的教程资源：用PyTorch进行语义分割。

△图源：stanford

该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割，并且添加了一些技巧。

友情提示：教程中的所有文件均可以在文末的开源地址获取。

预设置

在开始训练之前，得首先设置一下库、数据集等。

库准备

pip install -r requirements.txt

下载数据集

教程使用的是来自Cityscapes的数据集MiniCity Dataset。

数据集的简单数据分析

将各基准类别进行输入：

之后，便从0-18计数，对各类别进行像素标记：

使用deeplab v3进行基线测试，结果发现次要类别的IoU特别低，这样会导致难以跟背景进行区分。

如下图中所示的墙、栅栏、公共汽车、火车等。

分析结论：数据集存在严重的类别不平衡问题。

训练基准模型

使用来自torchvision的DeepLabV3进行训练。

硬件为4个RTX 2080 Ti GPU (11GB x 4)，如果只有1个GPU或较小的GPU内存，请使用较小的批处理大小（< = 8）。

python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;

python baseline.py --save_path baseline_run_deeplabv3_resnet101 --model DeepLabv3_resnet101 --train_size 512 1024 --test_size 512 1024 --crop_size 384 768 --batch_size 8;

损失函数

有3种损失函数可供选择，分别是：交叉熵损失函数（Cross-Entropy Loss）、类别加权交叉熵损失函数（Class-Weighted Cross Entropy Loss）和焦点损失函数（Focal Loss）。

交叉熵损失函数，常用在大多数语义分割场景，但它有一个明显的缺点，那就是对于只用分割前景和背景的时候，当前景像素的数量远远小于背景像素的数量时，模型严重偏向背景，导致效果不好。

# Cross Entropy Loss
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;

类别加权交叉熵损失函数是在交叉熵损失函数的基础上为每一个类别添加了一个权重参数，使其在样本数量不均衡的情况下可以获得更好的效果。

# Weighted Cross Entropy Loss
python baseline.py --save_path baseline_run_deeplabv3_resnet50_wce --crop_size 576 1152 --batch_size 8 --loss weighted_ce;

焦点损失函数则更进一步，用来解决难易样本数量不平衡。

# Focal Loss
python baseline.py --save_path baseline_run_deeplabv3_resnet50_focal --crop_size 576 1152 --batch_size 8 --loss focal --focal_gamma 2.0;

归一化层

有4种归一化方法：BN（Batch Normalization）、IN（Instance Normalization）、GN（Group Normalization）和EvoNorm（Evolving Normalization）。

BN是在batch上，对N、H、W做归一化，而保留通道 C 的维度。BN对较小的batch size效果不好。

# Batch Normalization
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;

IN在图像像素上，对H、W做归一化，用在风格化迁移。

# Instance Normalization
python baseline.py --save_path baseline_run_deeplabv3_resnet50_instancenorm --crop_size 576 1152 --batch_size 8 --norm instance;

GN将通道分组，然后再做归一化。

# Group Normalization
python baseline.py --save_path baseline_run_deeplabv3_resnet50_groupnorm --crop_size 576 1152 --batch_size 8 --norm group;

EvoNorm则是4月份由谷歌和DeepMind 联合发布的一项新技术。实验证明，EvoNorms 在多个图像分类模型上效果显著，而且还能很好地迁移到 Mask R-CNN 模型和 BigGAN。

# Evolving Normalization
python baseline.py --save_path baseline_run_deeplabv3_resnet50_evonorm --crop_size 576 1152 --batch_size 8 --norm evo;

数据增强

2种数据增强技术：CutMix、Copy Blob。

CutMix

将一部分区域cut掉但不填充0像素，而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。

而在这里，则是在原有CutMix的基础上，引入了语义分割。

# CutMix Augmentation
python baseline.py --save_path baseline_run_deeplabv3_resnet50_cutmix --crop_size 576 1152 --batch_size 8 --cutmix;

Copy Blob

在 Blob 存储的基础上构建，并通过Copy的方式增强了性能。

另外，如果要解决前面所提到的类别不平衡问题，则可以使用视觉归纳优先的CopyBlob进行增强。

# CopyBlob Augmentation
python baseline.py --save_path baseline_run_deeplabv3_resnet50_copyblob --crop_size 576 1152 --batch_size 8 --copyblob;

推理

训练结束后，对训练完成的模型进行评估。

python baseline.py --save_path baseline_run_deeplabv3_resnet50 --batch_size 4 --predict;

多尺度推断

使用[0.5，0.75，1.0，1.25，1.5，1.75，2.0，2.2]进行多尺度推理。另外，使用H-Flip，同时必须使用单一批次。

# Multi-Scale Inference
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --batch_size 1 --predict --mst;

使用验证集计算度量

计算指标并将结果保存到results.txt中。

python evaluate.py --results baseline_run_deeplabv3_resnet50/results_val --batch_size 1 --predict --mst;

最终结果

最后的单一模型结果是0.6069831962012341，

如果使用了更大的模型或者更大的网络结构，性能可能会有所提高。

另外，如果使用了各种集成模型，性能也会有所提高。

资源地址：
https://github.com/hoya012/semantic-segmentation-tutorial-pytorch

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「MEET 2021智能未来大会」启幕，

早鸟票限时抢购中，扫码预定席位！

李开复博士、尹浩院士、清华唐杰教授，以及来自小米、美团、 爱奇艺、小冰、亚信、浪潮、容联、澎思、 地平线、 G7等知名AI大厂的大咖嘉宾齐聚，期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

基准

关注 1

深度卷积神经网络图像语义分割研究进展

专知会员服务

87+阅读 · 2021年1月7日

最新《域自适应视觉应用》ECCV2020教程，67页PPT

专知会员服务

27+阅读 · 2020年12月24日

1小时学习Pytorch！最新《深度学习Pytorch》简明视频教程，45页ppt

专知会员服务

187+阅读 · 2020年8月10日

一份简单《图神经网络》教程，28页ppt

专知会员服务

127+阅读 · 2020年8月2日

【2020新书】深度学习计算机视觉，467页pdf用Python实战OpenCV和TensorFlow

专知会员服务

182+阅读 · 2020年7月17日

【干货书】深度学习计算机视觉，332页pdf，手把手教你Python学习CV

专知会员服务

202+阅读 · 2020年3月31日

【新书】实用的机器学习和图像处理，177页pdf，用于面部识别、目标检测和使用Python的模式识别

专知会员服务

104+阅读 · 2020年1月18日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

【干货】面向深度学习研究者的概率分布基础教程（附代码），庆熙大学| Tae Hwan Jung

专知会员服务

36+阅读 · 2019年9月9日

【入门】PyTorch文本分类

深度学习自然语言处理

8+阅读 · 2020年2月2日

初学者的 Keras：实现卷积神经网络

Python程序员

24+阅读 · 2019年9月8日

PyTorch语义分割开源库semseg

极市平台

25+阅读 · 2019年6月6日

Pytorch视频分类教程

专知

6+阅读 · 2019年5月25日

如何从零开始用PyTorch实现Chatbot？（附完整代码）

AI100

20+阅读 · 2019年3月1日

实战 | 用Python做图像处理（三）

七月在线实验室

15+阅读 · 2018年5月29日

教程 | 从头开始了解PyTorch的简单实现

机器之心

20+阅读 · 2018年4月11日

教程 | 如何从TensorFlow转入PyTorch

深度学习世界

38+阅读 · 2017年9月30日

资源 | GitHub万星：适用于初学者的TensorFlow代码资源集

机器之心

9+阅读 · 2017年9月2日

资源 | 从全连接层到大型卷积核：深度学习语义分割全指南

深度学习世界

5+阅读 · 2017年7月14日

Dual Temporal Memory Network for Efficient Video Object Segmentation

Arxiv

5+阅读 · 2020年3月13日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

Learning a Deep ConvNet for Multi-label Classification with Partial Labels

Arxiv

6+阅读 · 2019年2月26日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

Appearance-and-Relation Networks for Video Classification

Arxiv

4+阅读 · 2018年5月6日

Quantum generative adversarial networks

Arxiv

4+阅读 · 2018年4月30日

Activation Maximization Generative Adversarial Nets

Arxiv

5+阅读 · 2018年1月30日

Long-term Visual Localization using Semantically Segmented Images

Arxiv

7+阅读 · 2018年1月16日

Adversarial Learning for Chinese NER from Crowd Annotations

Arxiv

15+阅读 · 2018年1月16日

Generating Adversarial Examples with Adversarial Networks

Arxiv

10+阅读 · 2018年1月15日

VIP会员