The vision transformer splits each image into a sequence of tokens with fixed length and processes the tokens in the same way as words in natural language processing. More tokens normally lead to better performance but considerably increased computational cost. Motivated by the proverb "A picture is worth a thousand words" we aim to accelerate the ViT model by making a long image short. To this end, we propose a novel approach to assign token length adaptively during inference. Specifically, we first train a ViT model, called Resizable-ViT (ReViT), that can process any given input with diverse token lengths. Then, we retrieve the "token-length label" from ReViT and use it to train a lightweight Token-Length Assigner (TLA). The token-length labels are the smallest number of tokens to split an image that the ReViT can make the correct prediction, and TLA is learned to allocate the optimal token length based on these labels. The TLA enables the ReViT to process the image with the minimum sufficient number of tokens during inference. Thus, the inference speed is boosted by reducing the token numbers in the ViT model. Our approach is general and compatible with modern vision transformer architectures and can significantly reduce computational expanse. We verified the effectiveness of our methods on multiple representative ViT models (DeiT, LV-ViT, and TimesFormer) across two tasks (image classification and action recognition).


翻译:视觉变压器将每个图像分割成一个固定长度的象征物序列, 处理符号的方式与自然语言处理中的文字相同。 更多的象征物通常会提高性能, 但会大大增加计算成本。 我们以“ 图片值一千字” 的谚语为动力, 我们的目标是通过长图像短来加速 ViT 模型。 为此, 我们提出一种新颖的方法, 在推断期间根据情况调整分配象征物长度。 具体地说, 我们首先训练一个 ViT 模型, 叫做Resposable- VIT (REVT), 它可以以不同象征物长度处理任何输入。 然后, 我们从 ReViT 中检索“ 标记长度”, 并用它来训练一个轻量的 Token- Length 指派者( TLA) 。 我们的象征性标签标签标签标签标签是最小的象征物, 并且通过我们普通的变压图解模型的比值, 将我们普通的图象化图案的图象化方法 和图象的比的比值化方法 降低了我们普通图象的图象的图象的图象值的图象的图象的图象的比。 。 和图象化的比的比比比比的比的比的比的比和比的比的比的比, 和比的比, 可以的比的比, 和比的比的比的比的比的比的比的比的比的比的比, 和比的比的比的比的比的比的比的比的比的比,可以大大的比的比和比的比的比的比的比的比的比。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
【ICML2021】具有线性复杂度的Transformer的相对位置编码
专知会员服务
24+阅读 · 2021年5月20日
Transformer替代CNN?8篇论文概述最新进展!
专知会员服务
75+阅读 · 2021年1月19日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2020年4月29日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
VIP会员
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:基于LSTM的序列推荐实现(PyTorch)
LibRec智能推荐
50+阅读 · 2018年8月27日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2020年4月29日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Top
微信扫码咨询专知VIP会员