推理速度快YOLOV4五倍的YOLObile:通过压缩编译在移动端实时检测(附论文下载)

2020 年 9 月 16 日 计算机视觉战队

目标检测技术的迅速发展和广泛应用,引起了人们对目标检测器的精度和速度的关注。然而,目前最先进的目标检测工作要么是精度导向使用大模型,但导致高延迟,要么是速度导向使用轻量级模型,但牺牲精度。在这项工作中,作者提出了YOLObile框架,通过压缩编译协同设计在移动设备上实时检测对象。提出了一种适用于任意核大小的块穿孔剪枝方案。为提高移动设备上的计算效率,采用GPU-CPU协同方案,并辅以高级编译器辅助优化。实验结果表明,新提出的剪枝方案在49.0 mAP的情况下,可以实现YOLOv4的14倍压缩率。在YOLObile框架下,使用三星Galaxy S20的GPU实现了17 FPS的推理速度。通过加入新提出的GPU-CPU协同方案,推理速度提高到19.1帧/秒,比原来的YOLOv4加速5倍。

实验结果

总结

在本次工作中,提出了一个基于压缩编译协同设计的移动设备实时目标检测框架YOLObile。此外,还提出了一种新的剪枝方案——区块剪枝,该方案适用于任意核大小的卷积层和全连接层。为了提高移动设备上DNNs的计算效率,除了新提出的编译器优化之外,提出的YOLObile还提供了一个GPU-CPU协同计算方案。经过实验证明,新提出的YOLObile框架展现出了高准确性、高效率,并同时实现了高硬件并行性!

论文地址:

https://arxiv.org/pdf/2009.05697.pdf

登录查看更多
2

相关内容

深度学习目标检测方法综述
专知会员服务
274+阅读 · 2020年8月1日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
31+阅读 · 2020年4月24日
专知会员服务
44+阅读 · 2020年3月6日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
【学界】李沐等将目标检测绝对精度提升 4%,不牺牲推理速度
GAN生成式对抗网络
7+阅读 · 2019年2月15日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
YOLO升级到v3版,检测速度比R-CNN快1000倍
人工智能头条
10+阅读 · 2018年3月28日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
6+阅读 · 2017年7月17日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关论文
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
8+阅读 · 2018年5月17日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
6+阅读 · 2017年7月17日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员