Weakly supervised object localization (WSOL) aims to learn object localizer solely by using image-level labels. The convolution neural network (CNN) based techniques often result in highlighting the most discriminative part of objects while ignoring the entire object extent. Recently, the transformer architecture has been deployed to WSOL to capture the long-range feature dependencies with self-attention mechanism and multilayer perceptron structure. Nevertheless, transformers lack the locality inductive bias inherent to CNNs and therefore may deteriorate local feature details in WSOL. In this paper, we propose a novel framework built upon the transformer, termed LCTR (Local Continuity TRansformer), which targets at enhancing the local perception capability of global features among long-range feature dependencies. To this end, we propose a relational patch-attention module (RPAM), which considers cross-patch information on a global basis. We further design a cue digging module (CDM), which utilizes local features to guide the learning trend of the model for highlighting the weak local responses. Finally, comprehensive experiments are carried out on two widely used datasets, ie, CUB-200-2011 and ILSVRC, to verify the effectiveness of our method.


翻译:微弱监督对象本地化 (WSOL) 旨在仅通过使用图像级标签来学习对象本地化。 卷发神经网络(CNN) 基础技术往往导致突出物体中最具歧视性的部分,而忽略整个对象范围。 最近, 将变压器结构安装到WSOL, 以捕捉带有自留机制和多层感应器结构的远程特征依赖性。 然而, 变压器缺乏CNN所固有的局部感应偏差, 从而可能恶化WSOL中本地特性的细节 。 在本文中, 我们提议了一个建立在变压器上的新框架, 名为 LCTR (CLCTR (Centry Colentry Transrefor), 其目标就是提高全球特征在远程特性依赖性之间对本地的感知能力。 为此, 我们提出一个关系偏差感模块(RPAM), 在全球范围内考虑交叉匹配信息 。 我们进一步设计一个提示挖掘模块(CDM), 利用本地特性来指导模型的学习趋势, 突出薄弱的地方反应。 最后, 在两种广泛使用的数据集、 CU-200- VLS- 方法上进行了全面实验。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
专知会员服务
33+阅读 · 2021年5月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
无人机
3+阅读 · 2019年3月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
VIP会员
相关VIP内容
【AAAI2022】锚点DETR:基于transformer检测器的查询设计
专知会员服务
12+阅读 · 2021年12月31日
专知会员服务
33+阅读 · 2021年5月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
已删除
无人机
3+阅读 · 2019年3月4日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
Top
微信扫码咨询专知VIP会员