Weakly supervised object localization (WSOL) is a challenging problem when given image category labels but requires to learn object localization models. Optimizing a convolutional neural network (CNN) for classification tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among pixels. We introduce the token semantic coupled attention map (TS-CAM) to take full advantage of the self-attention mechanism in visual transformer for long-range dependency extraction. TS-CAM first splits an image into a sequence of patch tokens for spatial embedding, which produce attention maps of long-range visual dependency to avoid partial activation. TS-CAM then re-allocates category-related semantics for patch tokens, enabling each of them to be aware of object categories. TS-CAM finally couples the patch tokens with the semantic-agnostic attention map to achieve semantic-aware localization. Experiments on the ILSVRC/CUB-200-2011 datasets show that TS-CAM outperforms its CNN-CAM counterparts by 7.1%/27.1% for WSOL, achieving state-of-the-art performance.


翻译:当给定图像类别标签时, 微弱监督对象本地化( WSOL) 是一个具有挑战性的问题, 但需要学习对象本地化模型 。 优化用于分类的进化神经网络( CNN) 优化可变神经网络( CNN) 往往会激活局部歧视区域, 同时忽略完整的对象范围, 导致部分启动问题 。 在本文中, 我们争论部分激活是由CNN的内在特征造成的, 即连动操作产生本地可接收字段, 并难以捕捉像素之间的远程特征依赖性。 我们引入了象征性语义连接关注地图( TS- CAM), 以充分利用视觉变异器中的自我注意机制, 远程调控用。 TS- CAM 首先将图像分割成空间嵌入的补全符号序列, 产生远程视觉依赖性关注图, 以避免部分激活。 TS- CAM 重新配置与类别相关的语义解调, 使他们每个人都能够了解对象类别。 TS- CAM 最终将补装符号与视觉- SMS- CSIS- AS- AS- AS- ASettyal 显示SAL- AS- AS- AS- AS- smal- smals IM- sem- smals- smals- sal- sal- smalmaliz- smals

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
专知会员服务
110+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年7月30日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
专知会员服务
110+阅读 · 2020年3月12日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
Attention最新进展
极市平台
5+阅读 · 2020年5月30日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
论文浅尝 | Learning with Noise: Supervised Relation Extraction
开放知识图谱
3+阅读 · 2018年1月4日
论文浅尝 | Distant Supervision for Relation Extraction
开放知识图谱
4+阅读 · 2017年12月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员