Multi-label image recognition is a practical and challenging task compared to single-label image classification. However, previous works may be suboptimal because of a great number of object proposals or complex attentional region generation modules. In this paper, we propose a simple but efficient two-stream framework to recognize multi-category objects from global image to local regions, similar to how human beings perceive objects. To bridge the gap between global and local streams, we propose a multi-class attentional region module which aims to make the number of attentional regions as small as possible and keep the diversity of these regions as high as possible. Our method can efficiently and effectively recognize multi-class objects with an affordable computation cost and a parameter-free region localization module. Over three benchmarks on multi-label image classification, we create new state-of-the-art results with a single model only using image semantics without label dependency. In addition, the effectiveness of the proposed method is extensively demonstrated under different factors such as global pooling strategy, input size and network architecture. Code has been made available at~\url{https://github.com/gaobb/MCAR}.


翻译:多标签图像识别与单一标签图像分类相比是一项实际而艰巨的任务。然而,以往的工作可能并不理想,因为有许多物体提案或复杂的关注区域生成模块。在本文件中,我们提出了一个简单而高效的双流框架,以识别从全球图像到地方区域的多类别物体,类似于人类如何看待物体。为了缩小全球和本地流之间的差距,我们提议了一个多级关注区域模块,目的是尽可能减少关注区域的数量,并尽可能保持这些区域的多样性。我们的方法可以高效和有效地识别多类物体,并具有可负担得起的计算成本和一个无参数的区域本地化模块。在多标签图像分类方面,我们提出了三个以上的基准,我们只使用不依赖标签的图像语义学来创建一个单一模型,新的艺术成果。此外,在“url{https://github.com/gaobb/MCAR}等不同因素下,如全球集合战略、投入大小和网络架构,广泛展示了拟议方法的有效性。代码已经公布在“url{https://github.com/gaob/MCAR}。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
4+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
6+阅读 · 2020年9月29日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
Arxiv
4+阅读 · 2019年11月21日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
4+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
相关论文
Arxiv
0+阅读 · 2021年8月2日
Arxiv
6+阅读 · 2020年9月29日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
Arxiv
4+阅读 · 2019年11月21日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Top
微信扫码咨询专知VIP会员