推理速度快YOLOV4五倍的YOLObile：通过压缩编译在移动端实时检测（附论文下载） - 专知

会员服务 ·

0

推理速度快YOLOV4五倍的YOLObile：通过压缩编译在移动端实时检测（附论文下载）

2020 年 9 月 16 日 计算机视觉战队

目标检测技术的迅速发展和广泛应用，引起了人们对目标检测器的精度和速度的关注。然而，目前最先进的目标检测工作要么是精度导向使用大模型，但导致高延迟，要么是速度导向使用轻量级模型，但牺牲精度。在这项工作中，作者提出了YOLObile框架，通过压缩编译协同设计在移动设备上实时检测对象。提出了一种适用于任意核大小的块穿孔剪枝方案。为提高移动设备上的计算效率，采用GPU-CPU协同方案，并辅以高级编译器辅助优化。实验结果表明，新提出的剪枝方案在49.0 mAP的情况下，可以实现YOLOv4的14倍压缩率。在YOLObile框架下，使用三星Galaxy S20的GPU实现了17 FPS的推理速度。通过加入新提出的GPU-CPU协同方案，推理速度提高到19.1帧/秒，比原来的YOLOv4加速5倍。

实验结果

总结

在本次工作中，提出了一个基于压缩编译协同设计的移动设备实时目标检测框架YOLObile。此外，还提出了一种新的剪枝方案——区块剪枝，该方案适用于任意核大小的卷积层和全连接层。为了提高移动设备上DNNs的计算效率，除了新提出的编译器优化之外，提出的YOLObile还提供了一个GPU-CPU协同计算方案。经过实验证明，新提出的YOLObile框架展现出了高准确性、高效率，并同时实现了高硬件并行性！

论文地址：

https://arxiv.org/pdf/2009.05697.pdf

登录查看更多

2

相关内容

YOLOv4

深度学习目标检测方法综述

深度学习目标检测方法综述

专知会员服务

280+阅读 · 2020年8月1日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

谷歌开源EfficientDet：实现新SOTA，又快又准的目标检测器

谷歌开源EfficientDet：实现新SOTA，又快又准的目标检测器

极市平台

3+阅读 · 2020年3月18日

超Mask RCNN速度4倍，仅在单个GPU训练的实时实例分割算法 | 技术头条

超Mask RCNN速度4倍，仅在单个GPU训练的实时实例分割算法 | 技术头条

AI100

4+阅读 · 2019年6月10日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

计算机视觉life

6+阅读 · 2019年3月25日

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

GAN生成式对抗网络

8+阅读 · 2019年3月18日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

基于手机系统的实时目标检测

基于手机系统的实时目标检测

计算机视觉战队

8+阅读 · 2018年12月5日

TensorFlow 首个优化工具来了：模型压缩4倍，速度提升3倍！

TensorFlow 首个优化工具来了：模型压缩4倍，速度提升3倍！

全球人工智能

3+阅读 · 2018年9月19日

YOLO升级到v3版，检测速度比R-CNN快1000倍

YOLO升级到v3版，检测速度比R-CNN快1000倍

人工智能头条

10+阅读 · 2018年3月28日

Real-time object detection method based on improved YOLOv4-tiny

Arxiv

0+阅读 · 2020年12月2日

EfficientDet: Scalable and Efficient Object Detection

EfficientDet: Scalable and Efficient Object Detection

Arxiv

6+阅读 · 2019年11月20日

CornerNet-Lite: Efficient Keypoint Based Object Detection

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

Quantization Mimic: Towards Very Tiny CNN for Object Detection

Quantization Mimic: Towards Very Tiny CNN for Object Detection

Arxiv

5+阅读 · 2018年9月13日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年5月17日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Arxiv

7+阅读 · 2018年1月24日

TensorLog: Deep Learning Meets Probabilistic DBs

Arxiv

6+阅读 · 2017年7月17日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

VIP会员

相关主题

相关VIP内容

深度学习目标检测方法综述

深度学习目标检测方法综述

专知会员服务

280+阅读 · 2020年8月1日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

【MIT韩松博士-ICLR2020】端上自动机器学习-一劳永逸网络的NAS: Once-for-All Network

专知会员服务

58+阅读 · 2020年5月4日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

【Google AI新论文EfficientDet】规模化高效化的物体检测，EfficientDet: Scalable and Efficient Object Detection(附pdf)

专知会员服务

27+阅读 · 2019年11月24日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

谷歌开源EfficientDet：实现新SOTA，又快又准的目标检测器

谷歌开源EfficientDet：实现新SOTA，又快又准的目标检测器

极市平台

3+阅读 · 2020年3月18日

超Mask RCNN速度4倍，仅在单个GPU训练的实时实例分割算法 | 技术头条

超Mask RCNN速度4倍，仅在单个GPU训练的实时实例分割算法 | 技术头条

AI100

4+阅读 · 2019年6月10日

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

吊打YOLOv3！普林斯顿大学提出：CornerNet-Lite，基于关键点的实时且精度高的目标检测算法，已开源！

极市平台

30+阅读 · 2019年4月20日

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

计算机视觉life

6+阅读 · 2019年3月25日

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

GAN生成式对抗网络

8+阅读 · 2019年3月18日

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

【学界】李沐等将目标检测绝对精度提升 4%，不牺牲推理速度

GAN生成式对抗网络

7+阅读 · 2019年2月15日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

基于手机系统的实时目标检测

基于手机系统的实时目标检测

计算机视觉战队

8+阅读 · 2018年12月5日

TensorFlow 首个优化工具来了：模型压缩4倍，速度提升3倍！

TensorFlow 首个优化工具来了：模型压缩4倍，速度提升3倍！

全球人工智能

3+阅读 · 2018年9月19日

YOLO升级到v3版，检测速度比R-CNN快1000倍

YOLO升级到v3版，检测速度比R-CNN快1000倍

人工智能头条

10+阅读 · 2018年3月28日

相关论文

Real-time object detection method based on improved YOLOv4-tiny

Arxiv

0+阅读 · 2020年12月2日

EfficientDet: Scalable and Efficient Object Detection

EfficientDet: Scalable and Efficient Object Detection

Arxiv

6+阅读 · 2019年11月20日

CornerNet-Lite: Efficient Keypoint Based Object Detection

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

Quantization Mimic: Towards Very Tiny CNN for Object Detection

Quantization Mimic: Towards Very Tiny CNN for Object Detection

Arxiv

5+阅读 · 2018年9月13日

FSSD: Feature Fusion Single Shot Multibox Detector

Arxiv

8+阅读 · 2018年5月17日

DetNet: A Backbone network for Object Detection

Arxiv

5+阅读 · 2018年4月17日

Arxiv

7+阅读 · 2018年1月24日

TensorLog: Deep Learning Meets Probabilistic DBs

Arxiv

6+阅读 · 2017年7月17日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

大家都在搜

CMU博士论文

无人机集群

牛津博士论文

软件无线电

久别重逢话双塔

再见，TD-SCDMA！

微信扫码咨询专知VIP会员