RIFormer: 在移除Token混合器的同时保持视觉主干网络有效性 (RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer) - 专知论文

会员服务 ·

0

词元分析器 · 有效性 · 混合 · 重新参数化 · 网络设计 ·

2023 年 4 月 12 日

RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer

翻译：RIFormer: 在移除Token混合器的同时保持视觉主干网络有效性

Jiahao Wang,Songyang Zhang,Yong Liu,Taiqiang Wu,Yujiu Yang,Xihui Liu,Kai Chen,Ping Luo,Dahua Lin

from arxiv, 8 pages, accepted by CVPR2023

This paper studies how to keep a vision backbone effective while removing token mixers in its basic building blocks. Token mixers, as self-attention for vision transformers (ViTs), are intended to perform information communication between different spatial tokens but suffer from considerable computational cost and latency. However, directly removing them will lead to an incomplete model structure prior, and thus brings a significant accuracy drop. To this end, we first develop an RepIdentityFormer base on the re-parameterizing idea, to study the token mixer free model architecture. And we then explore the improved learning paradigm to break the limitation of simple token mixer free backbone, and summarize the empirical practice into 5 guidelines. Equipped with the proposed optimization strategy, we are able to build an extremely simple vision backbone with encouraging performance, while enjoying the high efficiency during inference. Extensive experiments and ablative analysis also demonstrate that the inductive bias of network architecture, can be incorporated into simple network structure with appropriate optimization strategy. We hope this work can serve as a starting point for the exploration of optimization-driven efficient network design. Project page: https://techmonsterwang.github.io/RIFormer/.

翻译：本文研究了如何在基本组件中移除Token混合器的同时保持视觉主干网络的有效性。Token混合器，对于视觉transformer（ViTs）的自注意力，旨在在不同空间Token之间执行信息通信，但会导致相当大的计算成本和延迟。然而，直接将它们移除将导致不完整的模型结构，从而带来显着的准确度下降。为此，我们首先利用重新参数化的思想，开发了RepIdentityFormer，研究了不带Token混合器的模型架构。然后，我们探索了改进的学习范式，打破了简单主干网络的限制，并将实证实践总结为5条指南。配备所提出的优化策略，我们能够构建一个高性能的极简视觉主干网络，在推理过程中保持高效。广泛的实验和剖析分析还展示了网络架构的归纳偏差可以与适当的优化策略结合到简单的网络结构中。我们希望这项工作可以作为优化驱动的高效网络设计探索的起点。项目页面：https://techmonsterwang.github.io/RIFormer/。

0

相关内容

词元分析器

词元分析器

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

何恺明组新论文：只用ViT做主干也可以做好目标检测

何恺明组新论文：只用ViT做主干也可以做好目标检测

专知会员服务

30+阅读 · 2022年4月2日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

专知会员服务

12+阅读 · 2021年12月9日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

【芝加哥大学】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

【芝加哥大学】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

专知会员服务

85+阅读 · 2020年1月15日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

无需新型token mixer就能SOTA：MetaFormer视觉基线模型开源，刷新ImageNet记录

无需新型token mixer就能SOTA：MetaFormer视觉基线模型开源，刷新ImageNet记录

机器之心

1+阅读 · 2022年12月1日

手把手教你改进PAN！董超团队开源超大感受野注意力超分方案VapSR

手把手教你改进PAN！董超团队开源超大感受野注意力超分方案VapSR

极市平台

0+阅读 · 2022年10月24日

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

谷歌推出多轴注意力方法，既改进ViT又提升MLP

谷歌推出多轴注意力方法，既改进ViT又提升MLP

机器之心

0+阅读 · 2022年9月9日

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

PaperWeekly

0+阅读 · 2022年6月21日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

SIRT1介导的Resveratrol对糖尿病视网膜病变“代谢记忆”的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Ferroportin1（FPN1)基因对破骨细胞分化和功能的调控及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态频谱环境下认知无线网络信息分发机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

HER2靶向新型纳米载体荷载BCRP-siRNA经UTMD逆转乳腺癌耐药性的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

低交叉极化共形天线阵列综合的混合DE算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部决策融合的无线传感器网络诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

水声网络跨层设计中的信道-网络联合编码技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

稀土掺杂对Co基Heusler合金磁性和费米能级的调控

国家自然科学基金

0+阅读 · 2011年12月31日

可逆数据嵌入编码及其在多媒体安全中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

无线传感器网络中的能量空洞问题及其对策研究

国家自然科学基金

0+阅读 · 2009年12月31日

Solving Projected Model Counting by Utilizing Treewidth and its Limits

Arxiv

0+阅读 · 2023年5月30日

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer

Arxiv

0+阅读 · 2023年5月30日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Prompt-based Tuning of Transformer Models for Multi-Center Medical Image Segmentation

Arxiv

1+阅读 · 2023年5月30日

Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning

Arxiv

0+阅读 · 2023年5月29日

ContrastNER: Contrastive-based Prompt Tuning for Few-shot NER

Arxiv

0+阅读 · 2023年5月29日

A Mechanism for Sample-Efficient In-Context Learning for Sparse Retrieval Tasks

Arxiv

0+阅读 · 2023年5月26日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

VIP会员

文章信息

相关主题

词元分析器

重新参数化

相关VIP内容

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

何恺明组新论文：只用ViT做主干也可以做好目标检测

何恺明组新论文：只用ViT做主干也可以做好目标检测

专知会员服务

30+阅读 · 2022年4月2日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

【AAAI2022】锚点DETR：基于transformer检测器的查询设计

专知会员服务

13+阅读 · 2021年12月31日

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

专知会员服务

12+阅读 · 2021年12月9日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

【芝加哥大学】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

【芝加哥大学】GRAPH-BERT: Only Attention is Needed for Learning Graph Representations

专知会员服务

85+阅读 · 2020年1月15日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《人与智能体在系统工程建模语言V2任务中的性能表现：基于用户中心化的评估方法》308页

《数据安全国家标准体系（2025版）》征求意见稿

AlphaMosaic：人工智能赋能的作战管理系统

《军事行动中通信平台的战略价值：提升战术效能与作战优势》

相关资讯

无需新型token mixer就能SOTA：MetaFormer视觉基线模型开源，刷新ImageNet记录

无需新型token mixer就能SOTA：MetaFormer视觉基线模型开源，刷新ImageNet记录

机器之心

1+阅读 · 2022年12月1日

手把手教你改进PAN！董超团队开源超大感受野注意力超分方案VapSR

手把手教你改进PAN！董超团队开源超大感受野注意力超分方案VapSR

极市平台

0+阅读 · 2022年10月24日

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

ECCV 2022 | 无需下游训练，Tip-Adapter大幅提升CLIP图像分类准确率

机器之心

4+阅读 · 2022年9月25日

谷歌推出多轴注意力方法，既改进ViT又提升MLP

谷歌推出多轴注意力方法，既改进ViT又提升MLP

机器之心

0+阅读 · 2022年9月9日

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

PaperWeekly

0+阅读 · 2022年6月21日

局部学习的特征选择：Local-Learning-Based Feature Selection

局部学习的特征选择：Local-Learning-Based Feature Selection

我爱读PAMI

14+阅读 · 2019年9月20日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

相关论文

Solving Projected Model Counting by Utilizing Treewidth and its Limits

Arxiv

0+阅读 · 2023年5月30日

AMatFormer: Efficient Feature Matching via Anchor Matching Transformer

Arxiv

0+阅读 · 2023年5月30日

Saliency Map Verbalization: Comparing Feature Importance Representations from Model-free and Instruction-based Methods

Arxiv

0+阅读 · 2023年5月30日

Prompt-based Tuning of Transformer Models for Multi-Center Medical Image Segmentation

Arxiv

1+阅读 · 2023年5月30日

Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning

Arxiv

0+阅读 · 2023年5月29日

ContrastNER: Contrastive-based Prompt Tuning for Few-shot NER

Arxiv

0+阅读 · 2023年5月29日

A Mechanism for Sample-Efficient In-Context Learning for Sparse Retrieval Tasks

Arxiv

0+阅读 · 2023年5月26日

Transformers in Time Series: A Survey

Arxiv

34+阅读 · 2022年2月15日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Class-Balanced Loss Based on Effective Number of Samples

Arxiv

12+阅读 · 2019年1月16日

相关基金

SIRT1介导的Resveratrol对糖尿病视网膜病变“代谢记忆”的作用及其机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

Ferroportin1（FPN1)基因对破骨细胞分化和功能的调控及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态频谱环境下认知无线网络信息分发机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

HER2靶向新型纳米载体荷载BCRP-siRNA经UTMD逆转乳腺癌耐药性的实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

低交叉极化共形天线阵列综合的混合DE算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于局部决策融合的无线传感器网络诊断方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

水声网络跨层设计中的信道-网络联合编码技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

稀土掺杂对Co基Heusler合金磁性和费米能级的调控

国家自然科学基金

0+阅读 · 2011年12月31日

可逆数据嵌入编码及其在多媒体安全中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

无线传感器网络中的能量空洞问题及其对策研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员