本文为 AI 研习社编译的技术博客,原标题 :
Review: DPN — Dual Path Networks (Image Classification)
作者 | Sik-Ho Tsang
翻译 | Tree123456
校对 | 约翰逊·李加薪 审核 | 酱番梨 整理 | 立鱼王
原文链接:
https://towardsdatascience.com/review-dpn-dual-path-networks-image-classification-d0135dce8817
注:本文的相关链接请访问文末【阅读原文】
在这篇文章中,我们会简要的回顾DPN网络。这是由新加坡国立大学,北京理工大学,国防科技大学和奇虎360人工智能研究所共同完成的作品。ResNet支持特征的重复使用,DenseNet支持新特征探索.而DPN结合了这两者的优点.最终,在图像分类任务中,DPN的输出结果明显优于ResNet,DenseNet,PolyNet和ResNeXt,并且在ILSVRC 2017 本地挑战赛中取得冠军.通过更好的主干网络,DPN还可以在目标检测和语义分割任务中获得目前最好的结果。DPN发表在2017的NIPS上,被引次数超过100篇。
1.ResNet, DenseNet and DPN
2.与目前表现最好的算法比较
DenseNet
作者尝试将ResNet和DenseNet作为高阶递归神经网络(HORNN)去解释.
当ResNet被视为高阶递归神经网络时候,可以如上图所示.
绿色箭头表示共享权重卷积.
1.2 ResNet
添加了一条新路径,暂时保存绿色箭头的输出以便重复使用。
左侧是ResNet,右侧是Densenet
虚线矩形实际上是残留路径。
左侧是ResNet,右侧是Densenet
残差网络本质上是密集连接网络,但具有共享连接。
ResNet:特征细化(特征重用)
DenseNet:保持探索新特征
管理一家公司
就如同管理一家公司:
员工们需要不停地提升工作技能(特征细化)
同时需要雇佣新的员工加入公司(特征探索)
论文中对ResNet和DenseNet网络有大段的描述和公式阐述,如有兴趣,请详读论文.
1.3DPN
DPN
DPN结合了ResNet和DenseNet的优点,网络如左上图所示.
将两列合并为一列,DPN如上图右方所示。
网络结构详情和复杂度比较
与ResNeXt相比,DPN故意设计了更小的模型尺寸和更少的FLOP。
与ResNeXt-101(32×4d)相比DPN-92参数少了15%左右,而DPN-98比ResNeXt-101(64×4d)参数少了26%左右。
在224×224输入下,DPN-92比ResNeXt-101(32×4d)减少约19%的FLOP,DPN-98比ResNeXt-101(64×4d)减少约25%的FLOP。
ImageNet-1k数据集验证集(+:均值最大池化)
与ResNeXt-101(32×4d)和DenseNet-161相比,深度仅为92的浅层DPN的绝对错误率降低了0.5%,绝对错误率降低了1.5%,但FLOP更少。
一个更深的DPN (DPN-98)超过了最好的残差网络ResNeXt-101(64×4d),但仍然可以减少25%的FLOP和更小的模型,模型大小(236mb vs . 320 MB)。
与目前最好的单一模型(非常深的PolyNet)相比,DPN-131有更高的精度,模型尺寸更小(304 MB vs . 365 MB)。
不同模型在训练期间总花费比较
实际成本如上图所示.
与性能最好的ResNeXt相比,DPN-98运行速度快15%,占用的内存少9%,测试错误率也相当低。
与性能最好的ResNeXt相比,更深层次的DPN-131只需要大约19%的训练时间,但却实现了最先进的单型号性能。
基于MXNet的重现,PolyNet(537层)[23]的训练速度约为每秒31个样本,表明DPN-131在训练过程中运行速度约为PolyNet的2倍。
2.2 场景分类
places365标准数据集验证精度
places365标准数据集是一个高分辨率的场景理解数据集,包含365个场景类别的180多万幅图像。
DPN-92所需的参数要少得多(138 MB vs . 163 MB),这再次证明了它的高参数效率和高泛化能力。
2.3 目标检测
PASCAL VOC 2007 测试集
该模型在VOC 2007训练集和VOC 2012训练集的联合集上进行训练,并在VOC 2007测试集上进行验证,使用faster R-CNN框架。
DPN得到的mAP为82.5%,与ResNet-101相比提高了6.1%,与ResNeXt-101相比提高了2.4%(32×4d)。
2.4 语义分割
PASCAL VOC 2012 测试集
分段框架基于DeepLabv2。 conv4和conv5中的3×3卷积层被动态卷积替换,并且在conv5的最终特征映射中使用了Atrous空间金字塔池(ASPP)。
DPN-92具有最高的总体mIoU精度,使总体mIoU的绝对值提高1.7%。
与ResNet-101相比,ResNeXt-101(32×4d)仅提高了mIoU的绝对值0.5%,因此提出的DPN-92比ResNeXt-101(32×4d)提高了3倍以上。
2.5 ILSVRC 2017 目标定位
可视化
使用faster R-CNN作为框架.
当有额外的训练数据时,DPN在分类和定位任务表现更优,
排行榜:http://image-net.org/challenges/LSVRC/2017/results
2.6 ILSVRC 2017 目标检测
可视化
想要继续查看该篇文章相关链接和参考文献?
点击底部【阅读原文】即可访问:
https://ai.yanxishe.com/page/TextTranslation/1393
AI求职百题斩 · 每日一题
点击阅读原文,查看本文更多内容