在识别和检测等实质性视觉任务中,Vision Transformer显示了强大的视觉表示能力,因此在手工设计更有效的架构方面吸引了快速增长的努力。在本文中,我们提出使用神经体系结构搜索来自动化这个过程,不仅搜索体系结构,而且搜索搜索空间。其核心思想是通过使用权重共享超级网络计算出的E-T误差,逐步演化出不同的搜索维度。根据空间搜索过程,给出了一般视觉变换器的设计指南,并进行了广泛的分析,促进了对视觉变换器的认识。值得注意的是,在ImageNet上进行评估时,来自搜索空间的搜索模型S3 (Search Space的简称)的性能优于最近提出的模型,如Swin、DeiT和ViT。S3在目标检测、语义分割和视觉问题回答方面的有效性也得到了说明,说明了它对下游视觉和视觉语言任务的通用性。代码和模型可以在https://github.com/microsoft/Cream上找到。
https://www.zhuanzhi.ai/paper/100e1a1db2c32b2d03263302d526f435