In this paper, we present token labeling -- a new training objective for training high-performance vision transformers (ViTs). Different from the standard training objective of ViTs that computes the classification loss on an additional trainable class token, our proposed one takes advantage of all the image patch tokens to compute the training loss in a dense manner. Specifically, token labeling reformulates the image classification problem into multiple token-level recognition problems and assigns each patch token with an individual location-specific supervision generated by a machine annotator. Experiments show that token labeling can clearly and consistently improve the performance of various ViT models across a wide spectrum. For a vision transformer with 26M learnable parameters serving as an example, with token labeling, the model can achieve 84.4% Top-1 accuracy on ImageNet. The result can be further increased to 86.4% by slightly scaling the model size up to 150M, delivering the minimal-sized model among previous models (250M+) reaching 86%. We also show that token labeling can clearly improve the generalization capability of the pre-trained models on downstream tasks with dense prediction, such as semantic segmentation. Our code and all the training details will be made publicly available at https://github.com/zihangJiang/TokenLabeling.


翻译:在本文中,我们展示象征性标签 -- -- 培训高性能视觉变压器(VITs)的新培训目标。不同于Vits的标准培训目标,该目标将分类损失计算在额外的可训练类标牌上,我们提议的目标利用所有图像补贴符号,以密集的方式计算培训损失。具体地说,将图像分类问题重塑为多种象征性识别问题,并指派每个补贴符号,由机器说明器生成一个具体地点的监督器(250M+),达到86%。实验还显示,象征性标签可以明显和一贯地提高各种VIT模型在宽频谱上的性能。对于具有26M可学习参数的视觉变压器来说,该模型能够利用所有图像网络上的图像补贴标签,达到84.4% Top-1 精确度。通过将模型尺寸略微提升到150M,将模型的最小规模模型(250M+)提高到86%,结果可以进一步提高到86.4%。我们还表明,标识标签可以明显地改善经过训练的下游模型的通用能力,并进行密集预测,例如Semmandegian/degrationaltalrealation。我们的编码和Semabigainredustrations

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年11月14日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
相关论文
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年8月2日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
6+阅读 · 2019年3月19日
Arxiv
3+阅读 · 2018年11月14日
Top
微信扫码咨询专知VIP会员