分组和识别是视觉场景理解的重要组成部分,例如对象检测和语义分割。在端到端深度学习系统中,图像区域的分组通常通过像素级识别标签的自顶向下的监督隐式进行。相反,在本文中,我们提出将分组机制引入到深度网络中,允许语义段在只有文本监督的情况下自动出现。我们提出了一种分层的分组视觉Transformer (GroupViT),它超越了规则的网格结构表示,学习将图像区域分组成逐渐增大的任意形状的片段。我们通过对比损失在大规模图像-文本数据集上联合训练GroupViT和文本编码器。GroupViT只有文本监督,没有任何像素级的注释,它学会了将语义区域组合在一起,并以零样本的方式成功地迁移到语义分割的任务中,即没有任何进一步的微调。它在PASCAL VOC 2012上实现了51.2%的mIoU的零样本学习精度,在PASCAL上下文数据集上实现了22.3%的mIoU,并与需要更高水平监督的最先进的迁移学习方法相匹配。

成为VIP会员查看完整内容
11

相关内容

CVPR 2022 将于2022年 6 月 21-24 日在美国的新奥尔良举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议,会议的主要内容是计算机视觉与模式识别技术。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
85+阅读 · 2021年1月7日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
从 CVPR 2019 一览小样本学习研究进展
AI科技评论
11+阅读 · 2019年7月25日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
李飞飞团队新作 - 有限标签的场景图预测
专知
27+阅读 · 2019年5月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
语义分割和转置卷积
AI研习社
10+阅读 · 2018年6月22日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月15日
Arxiv
12+阅读 · 2021年11月1日
VIP会员
相关VIP内容
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
16+阅读 · 2021年11月25日
专知会员服务
85+阅读 · 2021年1月7日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员