Recent advances in semantic segmentation generally adapt an ImageNet pretrained backbone with a special context module after it to quickly increase the field-of-view. Although successful, the backbone, in which most of the computation lies, does not have a large enough field-of-view to make the best decisions. Some recent advances tackle this problem by rapidly downsampling the resolution in the backbone while also having one or more parallel branches with higher resolutions. We take a different approach by designing a ResNeXt inspired block structure that uses two parallel 3x3 convolutional layers with different dilation rates to increase the field-of-view while also preserving the local details. By repeating this block structure in the backbone, we do not need to append any special context module after it. In addition, we propose a lightweight decoder that restores local information better than common alternatives. To demonstrate the effectiveness of our approach, our model RegSeg achieves state-of-the-art results on real-time Cityscapes and CamVid datasets. Using a T4 GPU with mixed precision, RegSeg achieves 78.3 mIOU on Cityscapes test set at 30 FPS, and 80.9 mIOU on CamVid test set at 70 FPS, both without ImageNet pretraining.


翻译:语义分割的最近进展一般地使图像网络先入为主的骨干经过预先训练, 并有一个特殊背景模块, 以迅速增加视野。 虽然这个骨干是成功的, 但大部分计算所在的骨干没有大到足以做出最佳决定的视野。 最近的一些进展通过在骨干中快速地减少对分辨率的描述来解决这个问题, 同时有一个或几个具有较高分辨率的平行分支。 我们采取不同的方法, 设计一个ResNeXt 启发性的块结构, 使用两个平行的3x3进化层, 具有不同变异率, 以提高视野范围, 同时保存本地细节 。 通过在骨干中重复这一块结构, 我们不需要在任何特殊背景模块之后再附加任何特定的外观模块。 此外, 我们提议了一个轻量的解码器, 来恢复本地信息比常见的替代品更好。 为了展示我们的方法的有效性, 我们的模型RegSeggeg在实时城市景象和CamVid数据集上, 使用具有混合精度的T4 GPU, RegSegS在C- 803 mO 和FPS 在CMVI 30 测试中, 在CMPS 前的30MPS。

0
下载
关闭预览

相关内容

专知会员服务
123+阅读 · 2020年9月8日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
专知会员服务
109+阅读 · 2020年3月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员