ResNeSt 登顶COCO数据集（目标检测，实例分割，全景分割）

会员服务 ·

ResNeSt 登顶COCO数据集（目标检测，实例分割，全景分割）

2020 年 5 月 23 日 CVer

点击上方“CVer”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文作者：张航

https://zhuanlan.zhihu.com/p/140236141

本文已由原作者授权，不得擅自二次转载

上期回顾：在上一篇关于语义分割在 ADE20K 数据集文章发布之后，我们又测试了 Cityscapes 和 Pascal Context，均达到了 SoTA 水平。

首先感谢小伙伴们 (Chongruo @吴冲若, Jerry@张钟越, Yi @朱毅) 的努力工作，还有沐神 @李沐的大力支持。

我们最近使用 ResNeSt 对各项下游应用进行测试，发现仅需使用经典算法作为基础，使用 ResNeSt 作为主干网络，就可以在各项应用中轻松获得 SoTA 水平，下面是几个相关的应用：

因为最近小伙伴们都比较忙，我们就不详细赘述了，这里主要是展示一下我们取得的结果。希望给准备打 COCO+LVIS比赛的小伙伴有所帮助，代码和模型都已经开源

主仓库链接：

https://github.com/zhanghang1989/ResNeSt

Detectron模型链接：

https://github.com/zhanghang1989/detectron2-ResNeSt

文章末尾有一些彩蛋，有兴趣可以看一下。

我们使用了 Cascade R-CNN + ResNeSt200DCN 在 MS-COCO 目标检测 test-dev 数据集上的结果如下：

这个表现追平了之前的 CBNet，与CBNet使用 3 个 backbone 不同，我们的模型只使用了单一的 ResNeSt-200 + DCN 的 backbone，所以有更好的推理速度。

在 MS-COCO 实例分割的 test-dev 数据集上的结果如下：

我们超过了 SpineNet 和 CBNet。在全景分割上，我们大幅超越前人工作：

最后补充一下上一篇没有提到的语义分割上的结果，在Cityscapes验证集上：

在 Pascal Context 验证集上（我们没有找到 test server）：

写在后面：

之前有公众号高调宣传我们的 ResNeSt paper，有朋友在评论区指责我们给 reviewer 压力，所以我们选择在审稿意见出来之后再继续宣传。而且我们很惊喜地收到一个 strong reject，关心这个审稿意见怎么写的朋友，可以去那个指责我们给 reviewer 压力的评论，翻译成英文是一模一样的。

关于这篇文章，当时投稿的时候，在 ImageNet 确实 Ablation Study 做得有许多不到位的地方，但是之前的文章也没有把所有前人提出的网络都按照相同 setting 训练一遍，而且这位 reviewer 还问为什么不比一下 SKNet + ResNet50D 这个不曾出现在前人工作中的网络。我觉得一定是出于对学术的严谨性给出的 strong reject，我非常感谢大家对我们工作的严格要求，在改投之前一定会把补充实验补充好（其实最近已经在做了）。

我之前也说过，这篇文章不是要解决分类问题，因为我认为分类问题是已经解决了的问题。最近领域内的基础网络研究和下游应用脱节。EfficientNet 很成功，但是它与下游应用已有的算法不兼容。我们训练网络中使用了一些 EfficientNet 的训练方法，比如 Auto Augment，但是请问为什么 ResNet 系列就不能用训练技巧。而且 Ablation Study 里面已经展示了，我们并没有使用精度最好的 setting 来做backbone，而是选择一个 latency 较小的，主要就是为了下游应用考虑。

我们不重复造轮子，希望做的网络能够和前人工作最好地兼容起来。这个网络替换原有 ResNet，可以提高3%左右，甚至在不使用任何技巧的情况下，直接在各个下游应用的主流数据集中取得 SoTA 的结果。希望这个网络能够对领域内的工作有所启发，其实我们并没有真正在意多一篇顶会文章。

ResNeSt之语义分割，ADE20K全新SoTA 47.6%

论文下载

在CVer公众号后台回复：ResNeSt，即可下载本论文

重磅！CVer-论文写作与投稿 交流群已成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满1800+人，旨在交流顶会（CVPR/ICCV/ECCV/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群