Recently, transformer and multi-layer perceptron (MLP) architectures have achieved impressive results on various vision tasks. A few works investigated manually combining those operators to design visual network architectures, and can achieve satisfactory performances to some extent. In this paper, we propose to jointly search the optimal combination of convolution, transformer, and MLP for building a series of all-operator network architectures with high performances on visual tasks. We empirically identify that the widely-used strided convolution or pooling based down-sampling modules become the performance bottlenecks when the operators are combined to form a network. To better tackle the global context captured by the transformer and MLP operators, we propose two novel context-aware down-sampling modules, which can better adapt to the global information encoded by transformer and MLP operators. To this end, we jointly search all operators and down-sampling modules in a unified search space. Notably, Our searched network UniNet (Unified Network) outperforms state-of-the-art pure convolution-based architecture, EfficientNet, and pure transformer-based architecture, Swin-Transformer, on multiple public visual benchmarks, ImageNet classification, COCO object detection, and ADE20K semantic segmentation.


翻译:最近,变压器和多层透视器(MLP)结构在各种愿景任务上取得了令人印象深刻的成果。 少数由手动调查的工程将这些操作者联合起来,设计视觉网络结构,并在一定程度上实现令人满意的性能。 在本文中,我们提议联合搜索组合、变压器和MLP的最佳组合,以建立一系列全操作者网络结构,在视觉任务上表现优异。 我们从经验中发现,广泛使用的以下层抽样为基础的滚动或集合模块在操作者组成网络时成为性能瓶颈。 为了更好地应对变压器和MLP操作者所捕捉的全球环境,我们提议了两个全新的背景下层抽样模块,这些模块可以更好地适应由变压器和MLP操作者编码的全球信息。 为此,我们联合搜索所有操作者和在统一搜索空间的下层抽样模块。 值得注意的是,我们搜索过的网络United20网络(Unificed Net) 超越了基于公共革命的纯度结构、高效的网络、和纯变换的图像系统、Straverical、Syal-Syal、Salifrial、Syal、Syal-ADrial、Saliflifrical、Sildal、Sildal、Sildal、Salifal、Salifal、SLVDIS、SLMIS、SLADADAD等等结构。

0
下载
关闭预览

相关内容

Transformer替代CNN?8篇论文概述最新进展!
专知会员服务
75+阅读 · 2021年1月19日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Arxiv
0+阅读 · 2021年11月30日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
8+阅读 · 2020年6月15日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关资讯
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
LibRec 每周算法:Wide & Deep (by Google)
LibRec智能推荐
9+阅读 · 2017年10月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关论文
Arxiv
0+阅读 · 2021年11月30日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
9+阅读 · 2021年5月17日
Arxiv
6+阅读 · 2020年10月8日
Arxiv
8+阅读 · 2020年6月15日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Neural Architecture Optimization
Arxiv
8+阅读 · 2018年9月5日
Arxiv
3+阅读 · 2018年6月24日
Top
微信扫码咨询专知VIP会员