VALSE 论文速览第35期：使用分块自监督神经网络搜索方法探索混合CNN-Transformer

2021 年 12 月 21 日 VALSE

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自澳大利亚蒙纳士大学等机构的网络结构搜索方面的工作。该工作由常晓军教授指导，李长林同学录制。

论文题目：使用分块自监督神经网络搜索方法探索混合CNN-Transformer

作者列表：李长林 (蒙纳士大学)，唐涛 (中山大学)，王广润 (牛津大学)，彭杰峰 (暗物智能)，王兵 (阿里巴巴)，梁小丹 (中山大学)，常晓军 (RMIT)

B站观看网址：

https://www.bilibili.com/video/BV1g3411x77R/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

论文摘要：

最近，用于视觉识别的手工神经网络方面的无数突破强调了探索由多样化模块组成的混合网络的迫切需要。与此同时，神经网络搜索 (NAS)方法正在激增，有望减少人类专家的负担。然而，NAS是否能够有效、高效地处理具有不同候选模块 (例如CNN和Transformer)的多样化搜索空间仍然是一个悬而未决的问题。在这篇工作中，我们提出了分块自监督神经网络结构搜索 (BossNAS)，这是一种无监督的神经网络结构搜索方法，解决了以前方法中由于大的权重共享空间和有偏见的监督而导致的网络结构评价不准确的问题。更具体地说，我们将搜索空间分解成块，并利用一种新的自监督训练方案，称为ensemble bootstrapping，分别对子网络进行训练后，再将每个块作为一个整体向种群中心搜索。此外，我们提出了HyTra搜索空间，一个织物状的混合CNN-Transformer搜索空间，具有可搜索的下采样位置。在这个充满挑战的搜索空间中，我们的搜索模型BossNet-T在ImageNet上实现了高达82.5%的准确率，在同等计算时间内超过了EfficientNet 2.4%。此外，我们的方法在使用ImageNet的典型MBConv搜索空间和使用CIFAR100的NATS-Bench-size搜索空间上分别以0.78和0.76的Spearman相关性实现了卓越的模型评价准确性，超过了最先进的NAS方法。

论文信息：

[1]Changlin Li, Tao Tang, Guangrun Wang, Jiefeng Peng, Bing Wang, Xiaodan Liang, Xiaojun Chang, "BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search." In Proceedings of the International Conference on Computer Vision (ICCV’21), virtual, October 2021.

论文链接：

[https://openaccess.thecvf.com/content/ICCV2021/papers/Li_BossNAS_Exploring_Hybrid_CNN-Transformers_With_Block-Wisely_Self-Supervised_Neural_Architecture_Search_ICCV_2021_paper.pdf]

代码链接：

[https://github.com/changlin31/BossNAS]

视频讲者简介：

李长林，蒙纳士大学博士生，研究方向为深度学习，计算机视觉，自动深度学习。