The task of multi-label image classification is to recognize all the object labels presented in an image. Though advancing for years, small objects, similar objects and objects with high conditional probability are still the main bottlenecks of previous convolutional neural network(CNN) based models, limited by convolutional kernels' representational capacity. Recent vision transformer networks utilize the self-attention mechanism to extract the feature of pixel granularity, which expresses richer local semantic information, while is insufficient for mining global spatial dependence. In this paper, we point out the three crucial problems that CNN-based methods encounter and explore the possibility of conducting specific transformer modules to settle them. We put forward a Multi-label Transformer architecture(MlTr) constructed with windows partitioning, in-window pixel attention, cross-window attention, particularly improving the performance of multi-label image classification tasks. The proposed MlTr shows state-of-the-art results on various prevalent multi-label datasets such as MS-COCO, Pascal-VOC, and NUS-WIDE with 88.5%, 95.8%, and 65.5% respectively. The code will be available soon at https://github.com/starmemda/MlTr/


翻译:多标签图像分类的任务是识别图像中显示的所有对象标签。 虽然多年来不断进步,但小型物体、类似对象和有条件概率高的物体仍然是先前以进化神经网络为基础的模型的主要瓶颈,但受进化内核代表能力的限制。 最近的视觉变压器网络利用自我注意机制来提取像素颗粒的特性, 显示更丰富的本地语义信息, 而不足以挖掘全球空间依赖性。 在本文中, 我们指出了CNN使用的方法遇到的三个关键问题, 并探索了使用特定变压器模块解决它们的可能性。 我们推出了一个多标签变压器结构(MLTr), 以窗口分隔、 在风中像素关注、 横风中关注, 特别是改善多标签图像分类任务的性能。 拟议的 MlTr 显示各种流行多标签数据集( 如 MS- COCO、 Pascal- VOC 和 NUS-WIDE) 的状态, 将很快可用 MA5. 5/Mm 代码 。

1
下载
关闭预览

相关内容

2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
【ICML2020】小样本目标检测
专知会员服务
90+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
1+阅读 · 2021年8月5日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
15+阅读 · 2020年2月5日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关VIP内容
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
65+阅读 · 2021年5月23日
【ICML2020】小样本目标检测
专知会员服务
90+阅读 · 2020年6月2日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
专知会员服务
60+阅读 · 2020年3月19日
专知会员服务
109+阅读 · 2020年3月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
1+阅读 · 2021年8月5日
Arxiv
6+阅读 · 2020年9月29日
Arxiv
15+阅读 · 2020年2月5日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Top
微信扫码咨询专知VIP会员