Vision Transformer (ViT) 显示了在各种视觉任务上的巨大潜力,因为它能够模拟长距离的依赖关系。但是,ViT 需要大量的计算资源来计算全局自注意力。在这项工作中,我们提出了一个带有多个分支的梯形自注意力块和一个逐步位移机制,以开发一个需要较少计算资源的轻量级变换器骨架,名为 Progressive Shift Ladder Transformer (PSLT)。首先,梯形自注意力块通过在每个分支中模拟局部自注意力来减少计算成本。与此同时,提出了逐步位移机制,通过为每个分支模拟各种局部自注意力并在这些分支之间互动,来扩大梯形自注意力块中的接受场。其次,梯形自注意力块的输入特征为每个分支沿通道维度均分,这大大降低了梯形自注意力块中的计算成本(参数和FLOPs的数量几乎是原来的1/3),然后这些分支的输出通过像素自适应融合进行合作。因此,带有相对较少参数和FLOPs的梯形自注意力块能够模拟长距离交互。基于梯形自注意力块,PSLT在几个视觉任务上表现良好,包括图像分类、目标检测和人员重新识别。在ImageNet-1k数据集上,PSLT的top-1精度为79.9%,参数为9.2M,FLOPs为1.9G,这与多个现有的参数超过20M和4G FLOPs的模型相当。代码可在 https://isee-ai.cn/wugaojie/PSLT.html 上获得。

成为VIP会员查看完整内容
24

相关内容

【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
33+阅读 · 2023年3月20日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
26+阅读 · 2021年7月11日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
45+阅读 · 2020年9月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
133+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
56+阅读 · 2023年3月26日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
VIP会员
相关VIP内容
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
33+阅读 · 2023年3月20日
【ICML2022】基于少样本策略泛化的决策Transformer
专知会员服务
35+阅读 · 2022年7月11日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
26+阅读 · 2021年7月11日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
【NeurIPS2020-MIT】子图神经网络,Subgraph Neural Networks
专知会员服务
45+阅读 · 2020年9月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员