会员服务 ·

为什么还要再造一次锤子？

这个问题其实也是我们在开始这个项目之前自问了很多次的问题。

如果大家有心留意下的话，Ross在产出RCNN和Fast RCNN的那两三年，每年都会去参加一下ImageNet比赛。其实当初很不解，为什么要去这么做，尤其是基本都是很裸的方法，一定不可能拿到好的名次。

后来有机会去抓住Kaiming问了一下这个问题，Kaiming给我的答案是，Ross其实并不关系这个名次，Ross关心的是借这个机会宣传他更好用的锤子给大家。

其实不同于很多人认为的那样，模型fancy，结果好才是一个好工作的体现。

恰恰相反，简单可靠，越多的paper愿意以这个方法作为baseline，就越说明这个方法的经典。

其实对我自己而言，我从读PhD开始就一直愿意去做这样的baseline和这样的锤子。

从当年用HOG+LR超越绝大多数paper的Tracking到参与MXNet项目再到后来用5行代码做domain adaptation的AdaBN。

虽然开始的时候都遭受了很多人包括reviewer的质疑，但是时间都证明了这些工作的价值。

对于目标检测和识别领域，今天我们发现了同样的问题。虽有很多开源的代码和框架，但是目前看下来仍有很大进步的空间。

一方面现有的开源框架虽有各种冠军头衔加持，但因为各种各样的原因，复现出真正SOTA的结果仍然不是一件轻松的事情；

另一方面，一些性能还不错的开源代码（如SNIP和SNIPER）却难以拓展和维护。所导致的结果就是目前仍然有很多论文仍然在一个很低的baseline上进行改进，就算取得了性能的提升也很难说明方法的有效性。

我们建立SimpleDet就是为了对于Instance Recognition这一系列问题提供一个更好的baseline和更好的锤子。

如果去问一个同学你需要一个什么样的目标检测和识别框架，我相信性能好，速度快，好用这三个关键词可以覆盖99%的需求，下面我们一一展开来看看SimpleDet在这些方面的优势和与其他开源框架的区别。

什么叫性能好？

在SimpleDet中，最值得关注的一个算法是我们的TridentNet（不知道TridentNet的同学欢迎猛戳：Naiyan Wang：TridentNet：处理目标检测中尺度变化新思路）。

我们公布了在各个setting下的模型和训练代码。这也是目前已知的COCO上单模型最高的算法。

除了一个干净的模型（testdev mAP=42.7）之外，我们还提供了一个加上了全部大礼包的setting（testdev mAP=48.4），包括Sync BN，multi-scale training/testing，deformable conv和softer NMS。

虽然这些都是在很多paper和比赛中大家已经常用的技术了，但是仍然很难把所有的方法都直接正确打开。

我们在SimpleDet中提供了一套开箱即用的方案，希望借此降低复现SOTA的门槛，从而提升下整个领域中baseline的水平。

除此之外，为了方便大家进一步拓展，我们还提供了一些经典模型和算法，例如Mask(Faster) RCNN，FPN，RetinaNet，CascadeRCNN等。

这个算法的结果都已经经过验证，能达到论文中和已有开源代码的结果。我们后续还会进一步补充一些经典和重要的工作，也欢迎大家积极贡献。

什么叫速度快？

首先针对速度这个问题，我们一个独特的feature是FP16 training，FP16不仅可以节省一半的显存，在最新支持TensorCore的Volta和Turing系列GPU上还可以有一倍甚至更多的速度提升。

如下左图，从1080Ti的30img/s可以提升到75img/s，展现了非常显著的提升。其次，对有不同资源的同学来说，对于速度的需求也是不同的。我们着重考虑了三种典型的用户：

入门用户：这类用户可能由于实验室资源限制，或者单纯是因为个人兴趣，只能负担起小于4块GPU。

针对这类用户，能够尽量复现出更多资源下的结果是第一优先级。核心的问题在于使用大的batchsize和BN batchsize。

在这样的setting下，SimpleDet提供了Inplace ABN[1] (To be announced)，结合上MXNet本身提供的memonger功能，再加上FP16，极限状态下训练的单卡batchsize可以达到8到16。

虽然损失了一定的速度，但是在两到四卡上就能达到正常八卡训练的batchsize。

普通用户：这类用户应该占据绝大多数，可以独占一台8卡机器进行训练。这类用户对于速度会有着更高的需求，可以在入门用户的基础上关掉memonger这种对速度有一些影响的组件，以得到更好的训练速度。

土豪用户：手里有多台8卡机器，希望充分利用机器快速迭代模型。针对这部分用户，依托于MXNet优秀的分布式设计以及阿里云更进一步优化的Perseus通信框架，如下右图所示，我们在4机32卡的情况下可以做到线性加速（没有资源进行更大的测试了，更强大的土豪可以赞助点机器）。

这对于打比赛或者对模型迭代速度有很高要求的应用来说，无疑是个福音。

我们希望每一类用户都能各取所需，在SimpleDet中找到最适合自己资源的setting，极大化产出。

什么叫做好用？

虽然每个用户心里都会有一个好用的定义（心疼产品经理1s…），除了前面的性能和速度之外，我们认为是否容易拓展和方便清晰调参也会是两个重要的因素。

我们针对一些常见需求，进行了高度模块化的设计，一个核心思想便是尽量抽象和隔离核心操作，使各种不同算法尽量复用，在这些核心操作之上拓展而无需修改。

例如，我们抽象出了一整套干净通用的配置系统，除了可以配置所有常见参数之外，还将常用的预处理和数据扩充操作也都抽象出来。

针对这些常见的变更，用户不需要修改核心代码即可完成调优。

再比如，修改一个detection算法可能会遇到最复杂的逻辑就是在于data loader和pre-process，但是往往一个欠佳的实现会导致loader的效率大幅度下降，从而成为整个训练中的瓶颈，使得GPU利用率降低。

在SimpleDet中，我们提取出了一个通用的多线程loader框架，并抽象出了在预处理中常见的操作。后续新算法的拓展可以很容易在这些通用工具的基础上同时保持简洁性和效率。

更多的设计欢迎大家直接阅读源码，我们也给出了一个简单的对Faster RCNN和TridentNet代码结构的分析供大家参考。

以上便是SimpleDet的一个简要介绍，欢迎大家积极试用，提出宝贵意见。也欢迎大家一起来捉bug，贡献新的算法和feature，共同把SimpleDet打造成一套目标检测与物体识别的前沿试验平台。

最后，例行保留项目。开源出来的项目只是我们在进行的Deep Learning项目中的冰山一角，Deep Learning也只是我们进行的无人驾驶卡车全技术栈中的一环，在图森有着大量有趣而又有挑战的项目有待开展。

想不想试试用自己的代码驱动一辆40吨的大卡车在高速上以80km/h的速度飞奔？

想不想试试用自己的代码控制一辆近20米长的卡车以5cm的精度停在吊车下呢？

欢！迎！加！入！图！森！未！来！常年招聘无人车算法工程师（包括实习生），覆盖感知、定位、地图、决策与控制全技术栈。

传送门

SimpleDet地址：

https://github.com/TuSimple/simpledet

TridentNet：处理目标检测中尺度变化新思路：

https://zhuanlan.zhihu.com/p/54334986

[1] Rota Bulò, Samuel, Lorenzo Porzi, and Peter Kontschieder. “In-place activated batchnorm for memory-optimized training of dnns.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

— 完 —

2018中国人工智能明星创业公司

加入社群

为给AI从业者提供更好的交流平台，量子位现开放「AI+教育」行业社群，欢迎小伙伴入群交流。

面向人群：AI+教育相关从业者，技术、产品等人员；

入群方式：请添加小助手7，微信号：qbitbot7，并发送‘教育群+您的姓名+公司+职位+工作内容简介’。

Ps.为保证社群价值，小助手会对申请入群的朋友进行审核，请大家理解！

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

登录查看更多

相关内容

TridentNet

关注 0

深度学习目标检测方法及其主流框架综述

专知会员服务

148+阅读 · 2020年6月26日

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

3D目标检测进展综述

专知会员服务

193+阅读 · 2020年4月24日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

CVPR2020 | 商汤-港中文等提出PV-RCNN：3D目标检测新网络

专知会员服务

45+阅读 · 2020年4月17日

【CVPR2020-百度】用于视觉识别的门控信道变换

专知会员服务

13+阅读 · 2020年3月30日

TensorFlow开发者峰会2020 Keynote，TF2及其庞大的科研、工业生态圈

专知会员服务

26+阅读 · 2020年3月20日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

港中文开源基于PyTorch的多任务人脸识别框架

极市平台

17+阅读 · 2019年8月31日

刷新COCO目标检测纪录！谷歌只靠AI扩增数据，就把一个模型变成SOTA，已开源

量子位

4+阅读 · 2019年6月28日

1500+ FPS！目前最快的CNN人脸检测算法开源

极市平台

25+阅读 · 2019年3月15日

CVPR2019 | FSAF：来自CMU的Single-Shot目标检测算法

极市平台

41+阅读 · 2019年3月8日

【学界】CVPR2019 | 开源分割新算法MS R-CNN，性能超越何恺明Mask R-CNN

GAN生成式对抗网络

12+阅读 · 2019年3月5日

CVPR2019 | 开源分割新算法MS R-CNN，性能超越何恺明Mask R-CNN

极市平台

9+阅读 · 2019年3月5日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

深度学习目标检测算法综述

AI研习社

25+阅读 · 2019年2月1日

【CVPR2018】实时旋转鲁棒人脸检测算法

深度学习大讲堂

4+阅读 · 2018年4月19日

【回顾】用于目标检测的DSOD模型（ICCV 2017）

AI研习社

3+阅读 · 2017年10月16日

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

Arxiv

10+阅读 · 2019年9月4日

Multi-view Knowledge Graph Embedding for Entity Alignment

Arxiv

36+阅读 · 2019年6月6日

A Comprehensive Comparison of Unsupervised Network Representation Learning Methods

Arxiv

5+阅读 · 2019年3月19日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月23日

Planar Object Tracking in the Wild: A Benchmark

Arxiv

5+阅读 · 2018年5月22日

Learning to Sketch with Shortcut Cycle Consistency

Arxiv

5+阅读 · 2018年5月1日

Vision Meets Drones: A Challenge

Arxiv

6+阅读 · 2018年4月23日

Zero-Shot Detection

Arxiv

7+阅读 · 2018年3月19日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

VIP会员

最新开源的目标检测与物体识别框架，已刷新COCO单模型算法纪录

雷刚发自凹非寺
量子位报道 | 公众号 QbitAI

为什么还要再造一次锤子？

什么叫性能好？

什么叫速度快？

什么叫做好用？

传送门

相关内容

最新开源的目标检测与物体识别框架，已刷新COCO单模型算法纪录

雷刚 发自 凹非寺 量子位 报道 | 公众号 QbitAI

为什么还要再造一次锤子？

什么叫性能好？

什么叫速度快？

什么叫做好用？

传送门

相关内容

雷刚发自凹非寺
量子位报道 | 公众号 QbitAI