独家 | 复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017）

2017 年 11 月 19 日 AI科技评论 Non

AI科技评论按，目标检测作为一个基础的计算机视觉任务，在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集（如ImageNet）上预训练初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇论文中，作者通过分析深度检测模型从头训练存在的问题，提出了四个原则，他们根据这些原则构建了DSOD模型，该模型在三个标准数据集（PASCAL VOC 07, 12和COCO）上都达到了顶尖的性能。这篇论文已被ICCV2017收录。

在近期雷锋网 AI研习社的线上分享会上，该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读，与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强，复旦大学Ph.D，UIUC ECE系访问学者，导师Thomas S. Huang教授。研究兴趣包括：计算机视觉（目标检测、视频描述、细粒度分类等），深度学习，机器学习等。他曾在因特尔中国研究院（Intel Labs China）进行为期一年的实习研究，期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容：

很高兴与大家分享我们的最新的工作DSOD，这篇论文已经被ICCV 2017 所收录。

众所周知，计算机视觉有几个比较重要的分类，包括目标分类、定位、目标检测、实例分割，前两个分类是针对单个目标，后两个分类是针对多个目标，DSOD主要是针对目标检测。

说到目标检测，大家可能会想到如下几个比较有代表性的方法：R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

ImageNet预训练模型的限制：一是模型结构是固定的，你不可能改变它的结构，二是会有learning bias，三是会出现domain不匹配的情况。我们的思路是从头训练检测器，但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

简单回顾下Rol pooling，如下图所示：

它其实就是一个max pooling：

可以在下图中看到forward和backward情况，把Rol pooling去掉这个框架就类似于YOLO和SSD。

几个原则：一是Proposal-free。去掉Rol pooling，虽然对模型的表现影响不大，但这一点非常重要。

二是Deep Supervision。采用Dense Block，能避免梯度消失的情况。

三是Dense Prediction Structure。大大减少了模型的参数量，特征包含更多信息。

四是Stem Block。采用stem结构，好处是能减少输入图片信息的丢失。

下面是DSOD整体结构：

这是我们做的一些对比实验，可以看到增加这些结构之后性能提升的百分点：

下面是在PASCAL VOC2007上的实验结果，可以看到Faster-RCNN和R-CNN速度很慢，YOLO和SSD的速度非常快，但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验，可以看到Faster-RCNN和R-CNN均以失败告终，最后的一行的实验加入COCO后mAP值提升，说明DSOD模型本身的泛化能力非常强。

下面是在PASCAL VOC2012上的实验结果，可以看到DSOD有不错的mAP值。

接下来是在COCO上面的一些结果，对比起来DSOD的也有很好的性能。

最后是一些实际的检测结果，可以看到bounding box对目标的检测非常贴合。

论文地址： https://arxiv.org/abs/1708.01241

代码：https://github.com/szq0214/DSOD

模型可视化示例：http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning，主要是做视频描述。在视频当中包含很多内容，而这些内容并不一致，因此视频描述相对来说会比较困难。下图是一些示例。

网络结构如下图所示。具体细节大家可以参见我们的论文Weakly Supervised Dense Video Captioning，论文地址：https://arxiv.org/abs/1704.01502

接下来是我们在ICCV 2017上的工作，主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型，然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文Learning Efficient Convolutional Networks through Network Slimming，论文地址：https://arxiv.org/abs/1708.06519

本次分享的视频如下：

AI科技评论整理编辑。

推荐阅读

清华大学团队开源OpenKE与OpenNE工具包，助力NLP系统梳理

一条Twitter引发的学术争论：NLP是交叉学科吗？

百度王海峰Quora精华整理：未来5-10年，NLP领域将会有什么进展？

————— AI 科技评论招人啦！ —————

我们诚招学术编辑 N 枚（全职，坐标北京）、新媒体运营 N 枚（全职，坐标深圳）、学术兼职 N 枚。

详情请参见AI科技评论招人啦，新媒体运营、学术编辑、学术兼职虚位以待！

欢迎发送简历到 guoyixin@leiphone.com

————— 给爱学习的你的福利 —————

不要等到算法出现accuracy不好、loss很高、模型overfitting时，

才后悔没有掌握基础数学理论！

线性代数及矩阵论，概率论与统计，凸优化

AI慕课学院机器学习之数学基础课程即将上线！

扫码进入课程咨询群，组队享团购优惠！

详细了解点击文末阅读原文

————————————————————

登录查看更多

相关内容

ICCV

关注 598

ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会，由IEEE主办，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议，被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议，在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV，ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低，是三大会议中公认级别最高的。ICCV会议时间通常在四到五天，相关领域的专家将会展示最新的研究成果。

深度学习目标检测方法及其主流框架综述

专知会员服务

148+阅读 · 2020年6月26日

【文献综述】深度学习目标检测方法及其主流框架综述

专知会员服务

119+阅读 · 2020年6月26日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

100+阅读 · 2019年11月15日