In this paper, we address the semantic segmentation problem with a focus on the context aggregation strategy. Our motivation is that the label of a pixel is the category of the object that the pixel belongs to. We present a simple yet effective approach, object-contextual representations, characterizing a pixel by exploiting the representation of the corresponding object class. First, we learn object regions under the supervision of ground-truth segmentation. Second, we compute the object region representation by aggregating the representations of the pixels lying in the object region. Last, % the representation similarity we compute the relation between each pixel and each object region and augment the representation of each pixel with the object-contextual representation which is a weighted aggregation of all the object region representations according to their relations with the pixel. We empirically demonstrate that the proposed approach achieves competitive performance on various challenging semantic segmentation benchmarks: Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Our submission "HRNet + OCR + SegFix" achieves 1-st place on the Cityscapes leaderboard by the time of submission. Code is available at: https://git.io/openseg and https://git.io/HRNet.OCR. We rephrase the object-contextual representation scheme using the Transformer encoder-decoder framework. The details are presented in~Section3.3.


翻译:在本文中,我们通过侧重于背景汇总战略来解决语义分割问题。 我们的动机是像素标签是像素所属对象的类别。 我们展示了简单而有效的方法, 对象- 逻辑表达方式, 通过利用相应的对象类的表示方式来描述像素。 首先, 我们在地面真相分割的监督下学习目标区域。 其次, 我们通过将位于目标区域的像素表示方式汇总来计算目标区域代表。 最后, 我们的表示方式与每个像素和每个目标区域之间的关系相似, 并且增加了每个像素的表示方式与目标- 变量表达方式的相似性。 我们展示的是, 目标区域表达方式在各种具有挑战性的语义分割基准上取得了竞争性的表现: 城市景观、 ADE20K、 LIP- 以及 Context 和 CO- 、 目标 目标- 目标- 以及每个目标区域之间的关系, 并增加了每个像素的表达方式, 以对象- 目标- 变量表达式 : 由 ASEDE20K、 LASLL 和 Rex 提供 时间框架。

1
下载
关闭预览

相关内容

超文本传输安全协议是超文本传输协议和 SSL/TLS 的组合,用以提供加密通讯及对网络服务器身份的鉴定。
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
37+阅读 · 2021年4月16日
专知会员服务
33+阅读 · 2020年12月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
17+阅读 · 2021年3月29日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
VIP会员
相关VIP内容
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
37+阅读 · 2021年4月16日
专知会员服务
33+阅读 · 2020年12月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
从R-CNN到Mask R-CNN
机器学习研究会
25+阅读 · 2017年11月13日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员