Semantic segmentation is a fundamental task in visual scene understanding. We focus on the supervised setting, where ground-truth semantic annotations are available. Based on knowledge about the high regularity of real-world scenes, we propose a method for improving class predictions by learning to selectively exploit information from neighboring pixels. In particular, our method is based on the prior that for each pixel, there is a seed pixel in its close neighborhood sharing the same prediction with the former. Motivated by this prior, we design a novel two-head network, named Offset Vector Network (OVeNet), which generates both standard semantic predictions and a dense 2D offset vector field indicating the offset from each pixel to the respective seed pixel, which is used to compute an alternative, seed-based semantic prediction. The two predictions are adaptively fused at each pixel using a learnt dense confidence map for the predicted offset vector field. We supervise offset vectors indirectly via optimizing the seed-based prediction and via a novel loss on the confidence map. Compared to the baseline state-of-the-art architectures HRNet and HRNet+OCR on which OVeNet is built, the latter achieves significant performance gains on two prominent benchmarks for semantic segmentation of driving scenes, namely Cityscapes and ACDC. Code is available at https://github.com/stamatisalex/OVeNet


翻译:OVeNet: 偏移向量网络用于语义分割 翻译摘要: 视觉场景理解中,语义分割是一项基础任务。我们专注于监督设置,其中有地面实况语义标注。基于关于现实场景高规则性的知识,我们提出了一种方法来通过学习选择性地利用来自邻近像素的信息来改善类预测。特别地,我们的方法基于每个像素的种子像素在它的紧密邻域内共享相同预测的先验知识上。受此先验知识的启发,我们设计了一种新的双重头部网络,称为 Offset Vector Network(OVeNet),它生成标准的语义预测和密集的二维偏移量向量场,指示从每个像素到相应种子像素的偏移量,它用于计算替代的,基于种子的语义预测。两个预测根据通过学习的密集置信度图自适应地在每个像素处融合为一个预测结果。我们通过优化基于种子的预测和针对置信度图的一种新型损失间接监督偏移向量。与 OVRC 状态下的基线最先进构架 HRNet 和 HRNet+OCR 相比,后者在用于驾驶场景的语义分割的两个杰出基准测试(Cityscapes 和 ACDC)中取得了显着的性能提升。 代码可在 https://github.com/stamatisalex/OVeNet 上获得。

0
下载
关闭预览

相关内容

专知会员服务
42+阅读 · 2021年8月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月14日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关VIP内容
专知会员服务
42+阅读 · 2021年8月20日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
专知会员服务
109+阅读 · 2020年3月12日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
相关资讯
CVPR2020接收论文开源代码
专知
30+阅读 · 2020年2月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
【泡泡汇总】CVPR2019 SLAM Paperlist
泡泡机器人SLAM
14+阅读 · 2019年6月12日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员