Previous vision MLPs such as MLP-Mixer and ResMLP accept linearly flattened image patches as input, making them inflexible for different input sizes and hard to capture spatial information. Such approach withholds MLPs from getting comparable performance with their transformer-based counterparts and prevents them from becoming a general backbone for computer vision. This paper presents Hire-MLP, a simple yet competitive vision MLP architecture via \textbf{Hi}erarchical \textbf{re}arrangement, which contains two levels of rearrangements. Specifically, the inner-region rearrangement is proposed to capture local information inside a spatial region, and the cross-region rearrangement is proposed to enable information communication between different regions and capture global context by circularly shifting all tokens along spatial directions. Extensive experiments demonstrate the effectiveness of Hire-MLP as a versatile backbone for various vision tasks. In particular, Hire-MLP achieves competitive results on image classification, object detection and semantic segmentation tasks, e.g., 83.8% top-1 accuracy on ImageNet, 51.7% box AP and 44.8% mask AP on COCO val2017, and 49.9% mIoU on ADE20K, surpassing previous transformer-based and MLP-based models with better trade-off for accuracy and throughput. Code is available at https://github.com/ggjy/Hire-Wave-MLP.pytorch.


翻译:MLP- Mixer 和 ResMLP 等先前的视觉 MLP 等 MLP 和 ResMLP 等先前的视觉 MLP 将线性平板化图像补丁作为输入, 使得它们对于不同的输入大小和难以获取空间信息不具有灵活性。 这种方法使 MLP 无法与基于变压器的对应方取得可比较的性能, 并阻止它们成为计算机视觉的一般主干线。 本文展示了 Hire- MLP, 这是一个简单而具有竞争力的 MLP 结构, 包含两个级别的重新排列 。 具体地说, 提议内区域重新排列以在空间区域内捕捉本地信息, 而跨区域重新排列是为了让不同区域之间的信息交流,并通过在空间方向上循环移动所有符号来捕捉到全球背景。 广泛实验展示了 Hire- MLP 作为各种视觉任务的多功能主干线。 特别是, Hire- MLP 在图像分类、 对象探测和语系分块任务上, 例如, 8.% 顶级- mab- mab- max- max- max- max- mill am- milling mill 的 milling mill 17, 在图像网络上, 在图像网络- sal- sal- sal- sal- box.

0
下载
关闭预览

相关内容

专知会员服务
46+阅读 · 2021年7月26日
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
66+阅读 · 2021年5月23日
最新《自监督表示学习》报告,70页ppt
专知会员服务
86+阅读 · 2020年12月22日
【ICML2020】对比多视角表示学习
专知会员服务
53+阅读 · 2020年6月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
9+阅读 · 2021年5月17日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机视觉领域顶会CVPR 2018 接受论文列表
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员