ResNet最强改进版来了!ResNeSt:Split-Attention Networks

2020 年 4 月 17 日 极市平台

加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~



《ResNeSt: Split-Attention Networks》

作者团队:亚马逊(张航和李沐等)&UC Davis
代码(提供PyTorch和MXNet双版本):
https://github.com/zhanghang1989/ResNeSt
论文: https://hangzhang.org/files/resnest.pdf



前言


开头先致敬一下 ResNet!2020年4月17日在谷歌学术上查看ResNet的引用量,发现已高达 43413!请注意,这还只是ResNet发表短短4年多的引用量。

这里吐槽一句,现在出现很多基于NAS的新网络(趋势),暴力出奇迹,比如MobileNetV3、EfficientNet等,但论应用场景,还是ResNet给力。实际上,很多下游工作(目标检测、图像分割等)仍然在使用ResNet或其变体,主要是因为结构简洁通用。




本文要介绍的是ResNet 的新变体: ResNeSt 。继续将ResNet"发扬光大",值得点赞。

标题注明了最强,很多人肯定会质疑是不是标题党?究竟有多强?往下看,你就知道了!

先说几组数据:

  • ResNeSt-50 在 ImageNet 上实现了81.13% top-1 准确率

  • 简单地用ResNeSt-50替换ResNet-50,可以将MS-COCO上的Faster R-CNN的mAP从39.25%提高到42.33%

  • 简单地用ResNeSt-50替换ResNet-50,可以将ADE20K上的DeeplabV3的mIoU从42.1%提高到45.1%


性能显著提升,参数量并没有显著增加,部分实验结果如下图所示。轻松超越ResNeXt、SENet等前辈(巨人)们。



ResNeSt


ResNeSt 的全称是:Split-Attention Networks,也就是特别引入了Split-Attention模块。如果没有猜错,ResNe S t 的  应该就是 Split。

这里要说一下,ResNeSt 实际上是站在巨人们上的"集大成者",特别借鉴了:Multi-path 和 Feature-map Attention思想。


其中:

  • GoogleNet 采用了Multi-path机制,其中每个网络块均由不同的卷积kernels组成。

  • ResNeXt在ResNet bottle模块中采用组卷积,将multi-path结构转换为统一操作。 

  • SE-Net 通过自适应地重新校准通道特征响应来引入通道注意力(channel-attention)机制。 

  • SK-Net 通过两个网络分支引入特征图注意力(feature-map attention)。


ResNeSt 和 SE-Net、SK-Net 的对应图示如下:


其中上图中都包含的 Split Attention模块如下图所示:


从图1和图2可知,都有split的影子。比如图1中的  K(k)  和图2中的  R(r)  都是超参数,也就是共计  G = K*R  组。

限于篇幅问题,本文旨在论文速递。完整理解Split Attention模块需要涉及部分公式,这里建议大家结合原文和代码进行理解。目前代码已经提供PyTorch和MXNet两个版本。

https://github.com/zhanghang1989/ResNeSt


同时论文还介绍了训练策略,这个对大家目前的工作应该具有很大的参考价值(涨点tricks)。


  • Large Mini-batch Distributed Training

  • Label Smoothing

  • Auto Augmentation

  • Mixup Training

  • Large Crop Size

  • Regularization


实验结果


ResNeSt 在ImageNet 图像分类性能如下,轻松超越SKNet、SENet、ResNetXt和ResNet。


ResNeSt 和其他SoTA的CNN模型进行性能比较(特别是NAS阵营)


ResNeSt 在MS-COCO 目标检测和实例分割任务上的表现性能如下,涨点太恐怖!


ResNeSt 在ADE20K 语义分割任务上的表现性能如下:



论文下载


在极市平台公众号后台回复: ResNeSt ,即可下载本论文

-END -

推荐阅读:


极市独家福利
40万奖金的AI移动应用大赛,参赛就有奖,入围还有额外奖励


添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 一起来让思想之光照的更远吧~


△长按添加极市小助手


△长按关注极市平台,获取最新CV干货


觉得有用麻烦给个在看啦~  

登录查看更多
2

相关内容

【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
84+阅读 · 2020年6月21日
注意力机制模型最新综述
专知会员服务
270+阅读 · 2019年10月20日
注意力机制介绍,Attention Mechanism
专知会员服务
171+阅读 · 2019年10月13日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
后ResNet时代:SENet与SKNet
PaperWeekly
23+阅读 · 2019年3月25日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Attention is All You Need | 每周一起读
PaperWeekly
10+阅读 · 2017年6月28日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
9+阅读 · 2018年5月24日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
后ResNet时代:SENet与SKNet
PaperWeekly
23+阅读 · 2019年3月25日
DaSiamRPN的升级版,视觉目标跟踪之SiamRPN++
极市平台
76+阅读 · 2019年2月20日
视频理解 S3D,I3D-GCN,SlowFastNet, LFB
极市平台
7+阅读 · 2019年1月31日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
[深度学习] AlexNet,GoogLeNet,VGG,ResNet简化版
机器学习和数学
20+阅读 · 2017年10月13日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
Attention is All You Need | 每周一起读
PaperWeekly
10+阅读 · 2017年6月28日
Top
微信扫码咨询专知VIP会员