Convolutional neural networks (CNNs) are ubiquitous in computer vision, with a myriad of effective and efficient variations. Recently, Transformers -- originally introduced in natural language processing -- have been increasingly adopted in computer vision. While early adopters continue to employ CNN backbones, the latest networks are end-to-end CNN-free Transformer solutions. A recent surprising finding shows that a simple MLP based solution without any traditional convolutional or Transformer components can produce effective visual representations. While CNNs, Transformers and MLP-Mixers may be considered as completely disparate architectures, we provide a unified view showing that they are in fact special cases of a more general method to aggregate spatial context in a neural network stack. We present the \model (CONText AggregatIon NEtwoRk), a general-purpose building block for multi-head context aggregation that can exploit long-range interactions \emph{a la} Transformers while still exploiting the inductive bias of the local convolution operation leading to faster convergence speeds, often seen in CNNs. In contrast to Transformer-based methods that do not scale well to downstream tasks that rely on larger input image resolutions, our efficient network, named \modellight, can be employed in object detection and instance segmentation networks such as DETR, RetinaNet and Mask-RCNN to obtain an impressive detection mAP of 38.9, 43.8, 45.1 and mask mAP of 41.3, providing large improvements of 6.6, 7.3, 6.9 and 6.6 pts respectively, compared to a ResNet-50 backbone with a comparable compute and parameter size. Our method also achieves promising results on self-supervised learning compared to DeiT on the DINO framework. Code is released at \url{https://github.com/allenai/container}.


翻译:在计算机视觉中,基于简单 MLP 的解决方案在计算机视觉中普遍存在,具有各种各样的效力和效率变异。最近,在自然语言处理中引入的变异器在计算机视觉中日益被采用。虽然早期采用者继续使用CNN的骨干,但最新的网络是无CNN的变异器解决方案。最近一个令人惊讶的发现显示,一个没有传统变异或变异组件的简单 MLP 解决方案可以产生有效的视觉表现。尽管CNN、变异器和MLP-Mixer可能被视为完全不同的架构,但我们提供了一种统一的观点,表明它们事实上是一种在神经网络堆中综合空间背景的更通用方法的特殊案例。我们展示了模型(CONText Agregation NeworkRk),这是多头环境组合的一个通用建筑块,可以利用远程互动\ emph{i} la}变异体,同时利用本地变变变码操作的感知性变变形框架导致更快的趋近的趋同速度,通常见于CNNFNFAR的变变变变变码网络, 和变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式的网络的变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变式变

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
专知会员服务
110+阅读 · 2020年3月12日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Arxiv
7+阅读 · 2020年5月25日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
FIGR: Few-shot Image Generation with Reptile
Arxiv
5+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
NeurIPS 2021丨K-Net: 迈向统一的图像分割
专知会员服务
17+阅读 · 2021年11月25日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
31+阅读 · 2020年3月26日
专知会员服务
110+阅读 · 2020年3月12日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
语义分割 | context relation
极市平台
8+阅读 · 2019年2月9日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员