会员服务 ·

小模型实现大一统！Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA

2021 年 12 月 7 日 新智元

新智元报道

编辑：小咸鱼

【新智元导读】Meta现实实验室（Meta Reality Lab）华人一作提出FBNetV5，这是一种在一次运行中同时为多个任务搜索架构的神经架构搜索（NAS）算法。针对三个基本的视觉任务：图像分类、物体检测和语义分割，FBNetV5搜索到的模型在所有三个任务中都超过了目前的SoTA水平。

神经网络模型经常被研究人员戏称为「堆积木」，通过将各个基础模型堆成更大的模型，更多的数据来取得更好的效果。

为了减轻人工构建模型的工作量，用AI技术来搜索最优「堆积木」方法就很有必要了。

神经架构搜索（NAS）就是这样一种技术，随着研究的发展，神经结构搜索（NAS）已被广泛用于设计准确高效的图像分类模型。

然而，将神经架构搜索（NAS）应用于新的计算机视觉任务仍然需要大量的努力。

这是因为之前的NAS研究，都是优先考虑图像分类任务，而在很大程度上忽略了其他任务；优化好的架构也无法顺利迁移到其他任务的特定任务组件；以及现有的NAS方法通常被设计为「无代理」，所以需要付出巨大的努力才能与每个新任务的训练管道集成。

为了应对这些挑战，Meta Reality Lab提出了FBNet系列最新版——FBNetV5，这是一个NAS框架，可以搜索满足各种视觉任务的神经网络架构，大大降低计算成本。

https://arxiv.org/pdf/2111.10007v1.pdf

通过对三个基本视觉任务（图像分类、目标检测和语义分割）的评估，FBNetV5在单次搜索中搜索的模型在所有三个任务中都优于以前的最先进水平：图像分类（与FBNetV3相比，在相同的FLOPs下，ImageNet top-1的准确率为1.3%），语义分割（ADE20K val mIoU比SegFormer高出1.8%的同时，减少3.6倍的FLOPs）和目标检测（与YOLOX相比，COCO val. mAP提升1.1%，减少1.2倍FLOPs）。

在FBNetV5的单次搜索中搜索的架构在三个任务上优于SoTA性能：ImageNet图像分类、ADE20K语义分割和COCO目标检测。

FBNetV5框架

FBNetV5本质是一个全新的NAS框架，它可以在一次搜索中同时搜索多个任务的主干拓扑。该工作面向三个基本的计算机视觉任务：图像分类、目标检测和语义分割。

FBNetV5是从Meta AI自家最先进的图像分类模型，即FBNetV3开始，构建一个由多个分辨率的平行路径组成的超网（supernet），类似于HRNet。

FBNetV5概述。通过在多任务数据集上训练超网来搜索多个任务的主干拓扑。每个任务都有自己的体系结构分布，从中抽取特定于任务的体系结构，并使用目标任务的现有训练管道对它们进行训练。

基于超网，FBNetV5通过将一组二进制掩码参数化，来搜索每个目标任务的最佳拓扑，该掩码的指示代表是否保留超网中的某个构建块。

为了将搜索过程从目标任务的训练流水线中分离出来，他们通过在具有分类、目标检测和语义分割标签的多任务数据集上训练超网来进行搜索。

为了使计算成本和超参数调整工作与任务数量无关，研究人员提出了一种超网训练算法，该算法在一次运行中同时搜索任务体系结构。

超网训练伪代码

在超网训练之后，再单独训练已经搜索到的针对于特定任务的网络结构，以测试它们的性能。

大量实验表明FBNetV5产生的紧凑模型可以在所有三个目标任务上实现SoTA性能。值得注意的是，所有性能良好的架构都是在一次运行中同时搜索的，然而它们却击败了为每项任务精心搜索或设计的SoTA神经架构。

实验结果

Meta Reality Lab在基于Pytorch和Detectron2的D2Go中实现了搜索过程和目标任务的训练管道。

对于搜索（训练超网）过程，研究人员构建了一个从FBNetV3-A模型扩展而来的超网，在16个V100 GPU上训练，大概需要10个小时完成。

针对ImageNet分类、ADE20K语义分割和COCO目标检测，FBNetV5搜索的体系结构会与现有的NAS搜索和手动设计的紧凑模型进行比较。

通过训练一次supernet，为每个任务采样一个拓扑来搜索所有任务的拓扑，并将搜索到的拓扑转移到不同大小的不同版本FBNetV5模型中。

在ImageNet图像分类任务上与SoTA模型的比较。

FBNetV5使用FBNetV5-{A，C，F}的不同版本命名，并通过从FBNetV5-A分别收缩分辨率和通道大小来构建两个更小的模型FBNetV5-AR和FBNetV5-AC，并最终使用FBNetV5-{version}-{task}的格式来命名模型。

与所有现有的紧凑模型（包括自动搜索和手动设计的模型）相比，FBNetV5在ImageNet 分类中提供了具有更好精度与FLOPs平衡的架构。与FBNetV3-G相比，在相同FLOPs下，top-1精度提高了1.3%。

在ADE20K语义分割任务中，FBNetV5与以MiT-B1为主干的SegFormer相比，mIoU提高了1.8%，FLOPs减少了3.6倍。

在ADE20K语义分割任务上与SoTA模型的比较。

在COCO目标检测任务中，FBNetV5与YOLOX-Nano相比，获得了1.1%的mAP增益，但是FLOPs减少了1.2倍。

在COCO目标检测任务上与SoTA模型的比较。

为了验证FBNetV5搜索算法的有效性，研究人员将提出的多任务搜索与单任务搜索和随机搜索进行了比较。

与随机搜索相比，使用相同的FLOPs，来自多任务搜索的模型明显优于随机采样模型，在图像分类上实现了0.3%的性能增益，在语义分割上实现了1.6%的性能增益，在目标检测上实现了0.4%的性能增益。

与单任务搜索相比，通过多任务搜索搜索到的模型提供了非常相似的性能（例如，在ADE20K 上相同mIoU下，2.8 GFLOPs对2.7 GFLOPs），同时将每个任务的搜索成本降低了T倍。T代表任务的数量。

当在ImageNet图像分类（CLS）、ADE20K语义分割（SEG）和COCO目标检测（DET）中进行基准测试时，FBNetV5搜索算法的有效性。T代表任务数。

最终搜索到的结构如下：

语义分割（SEG）、目标检测（DET）和图像分类（CLS）任务的搜索架构的可视化。

未来，研究人员在FBNetV5的基础上，还会探索更细粒度的搜索空间，例如，搜索分块的信道大小，这可以进一步提高搜索模型的性能。

参考资料：

https://arxiv.org/pdf/2111.10007v1.pdf

登录查看更多

相关内容

图像分类

关注 24

图像分类是指给定一组各自被标记为单一类别的图像，然后对一组新的测试图像的类别进行预测，并测量预测的准确性结果。

【KDD2021】用NAS实现任务无关且可动态调整尺寸的BERT压缩

专知会员服务

17+阅读 · 2021年9月2日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

【CVPR2021】神经结构搜索的相对论性评价

专知会员服务

12+阅读 · 2021年3月25日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning

专知会员服务

159+阅读 · 2020年2月29日

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

专知会员服务

17+阅读 · 2019年11月17日

7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出；何恺明组只用ViT做主干进行目标检测

机器之心

2+阅读 · 2022年4月3日

Meta AI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星

量子位

0+阅读 · 2022年1月29日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

超越ImageNet预训练，Meta AI提出SplitMask，小数据集也能自监督预训练

机器之心

0+阅读 · 2022年1月5日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

何凯明团队又出新论文！北大、上交校友教你用ViT做迁移学习

新智元

0+阅读 · 2021年11月25日

首次赢得WMT机器翻译大赛，Meta证明单个多语言模型强于双语模型

机器之心

0+阅读 · 2021年11月15日

CV进入三维时代！Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？

新智元

0+阅读 · 2021年10月20日

【NeurIPS 2019】7篇自动化神经网络搜索(NAS)论文简读

专知

31+阅读 · 2019年9月12日

基于稀疏表示的单幅图像联合盲复原及识别

国家自然科学基金

0+阅读 · 2014年12月31日

基于用户需求的自治无线网络协作模型与优化机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

异构云环境下能耗高效调度模型与优化方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向逆时偏移算法的FPGA加速技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于主干成分的句法统计机器翻译模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

支持多种计算与数据共享的编程框架研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于集体检测的GNSS多频多模矢量跟踪关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

多性状全基因组关联分析新方法的探索

国家自然科学基金

0+阅读 · 2013年12月31日

基于TSV互连的三维FPGA架构及关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

用于交互式视频检索的教练式主动学习模型

国家自然科学基金

0+阅读 · 2012年12月31日

Unsupervised Domain Adaptation for Cardiac Segmentation: Towards Structure Mutual Information Maximization

Arxiv

0+阅读 · 2022年4月20日

HMT: A Hardware-Centric Hybrid Bonsai Merkle Tree Algorithm for High-Performance Authentication

Arxiv

0+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

Preemptive Motion Planning for Human-to-Robot Indirect Placement Handovers

Arxiv

0+阅读 · 2022年4月16日

Poolingformer: Long Document Modeling with Pooling Attention

Arxiv

14+阅读 · 2021年5月10日

Faster Meta Update Strategy for Noise-Robust Deep Learning

Arxiv

11+阅读 · 2021年4月30日

Controllable Multi-Interest Framework for Recommendation

Arxiv

18+阅读 · 2020年8月3日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

Predictive Engagement: An Efficient Metric For Automatic Evaluation of Open-Domain Dialogue Systems

Arxiv

11+阅读 · 2019年11月4日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

VIP会员