Convolution has been the core ingredient of modern neural networks, triggering the surge of deep learning in vision. In this work, we rethink the inherent principles of standard convolution for vision tasks, specifically spatial-agnostic and channel-specific. Instead, we present a novel atomic operation for deep neural networks by inverting the aforementioned design principles of convolution, coined as involution. We additionally demystify the recent popular self-attention operator and subsume it into our involution family as an over-complicated instantiation. The proposed involution operator could be leveraged as fundamental bricks to build the new generation of neural networks for visual recognition, powering different deep learning models on several prevalent benchmarks, including ImageNet classification, COCO detection and segmentation, together with Cityscapes segmentation. Our involution-based models improve the performance of convolutional baselines using ResNet-50 by up to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU absolutely while compressing the computational cost to 66%, 65%, 72%, and 57% on the above benchmarks, respectively. Code and pre-trained models for all the tasks are available at https://github.com/d-li14/involution.


翻译:进化是现代神经网络的核心要素,引发了深层次视觉学习的激增。 在这项工作中,我们重新思考了视觉任务,特别是空间-不可知性和频道特定任务的标准进化的内在原则。 相反,我们为深神经网络展示了一种新的原子操作,通过颠倒上述的演化设计原则,以进化的形式出现。我们进一步解开了最近流行的自我关注操作器的神秘性,并将其作为过度复杂的瞬间反应纳入我们的进化家庭。拟议的进化操作器可以被作为基本砖块,用于建造新一代神经网络,用于视觉识别,在包括图像网络分类、COCOCO探测和分解在内的一些流行基准上,赋予不同的深层学习模型以动力。我们的进化模型利用ResNet-50改进进化基线的性能,最高精确度达到1.6 %-1,最高精确度为2.5%和2.4%绑定的邮箱AP,以及4.7%的IoU绝对值,同时将计算成本压缩到66%、65%、72%和57%的深入学习模型,分别用于以上/进化模式。

6
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年5月10日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年8月15日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
4+阅读 · 2020年3月27日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
VIP会员
相关VIP内容
专知会员服务
56+阅读 · 2021年5月10日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员