摘要——本文对YOLO系列系统进行了全面的综述。与以往的文献调查不同,本综述文章从最新的技术视角重新审视了YOLO系列的特性。同时,我们还分析了YOLO系列如何持续影响和推动实时计算机视觉相关研究,并促成了计算机视觉和语言模型的后续发展。我们深入探讨了YOLO系列在过去十年中提出的方法如何影响了后续技术的发展,并展示了YOLO在各个领域的应用。我们希望这篇文章能够在后续的实时计算机视觉发展中发挥良好的指导作用。

关键词——YOLO,计算机视觉,实时目标检测

目标检测是一项基础的计算机视觉任务,能够支持广泛的下游任务。例如,它可以用于辅助实例分割、多目标跟踪、行为分析与识别、人脸识别等。因此,目标检测在过去几十年中一直是一个热门的研究课题。近年来,由于移动设备的普及,在边缘设备上执行实时目标检测的能力已成为各种实际应用中必不可少的组成部分。这类应用的任务包括自动驾驶、工业机器人、身份认证、智能医疗、视觉监控等。在众多实时目标检测算法中,近年来开发的YOLO(You Only Look Once)系列(从v1到v10)[1]–[10]尤为突出。它极大地并广泛地影响了计算机视觉领域的各种研究。本文将回顾YOLO系列技术及其对当代实时计算机视觉系统发展的影响。 第一个在目标检测领域取得突破性成功的深度学习方法是R-CNN [11]。R-CNN是一种两阶段的目标检测方法,它将目标检测过程分为两个阶段:目标候选框生成和目标候选框分类。R-CNN首先使用在图像处理中常用的选择性搜索[12]来提取候选框。在这个阶段,CNN只作为特征提取器来提取候选框的特征。至于识别部分,则使用SVM[13]。随后发展的Fast R-CNN [14]和Faster R-CNN [15]分别使用SPPNet [16]加速特征提取并提出了区域候选网络(Region Proposal Networks),逐步将目标检测转化为端到端的形式。YOLO [1]由Joseph Redmon于2015年提出,它通过每个网格的预测一步完成目标检测。这是一种突破性的方法,将实时目标检测领域提升到一个全新的水平。后续发展的一阶段目标检测系统还包括SSD [17]、RetinaNet [18]、FCOS [19]等。

尽管一阶段目标检测方法可以实时检测物体,但在精度上仍与两阶段目标检测方法有差距。一阶段检测系统如RetinaNet [18]和YOLOv3 [3]在这方面取得了显著进展,并且都达到了足够的精度。YOLO系列已成为工业界以及所有需要实时目标分析的学术界和研究中心的首选方法。2020年,Scaled-YOLOv4 [20]进一步设计了一种非常有效的目标检测模型扩展方法。首次在一般目标检测领域中,一阶段目标检测方法的精度超越了所有当代的两阶段目标检测方法,这一成就也引发了许多基于YOLO系列方法的后续相关研究。 除了目标检测外,YOLO系列还被用于其他计算机视觉领域,作为开发实时系统的基础。目前在实例分割、姿态估计、图像分割、3D目标检测、开放词汇目标检测等领域,YOLO仍在实时系统中发挥着重要作用。 在本综述文章中,我们将依次介绍以下问题:

  • YOLO系列方法的介绍及相关重要文献。
  • YOLO系列方法对当代计算机视觉领域的影响。
  • 在不同计算机视觉领域应用YOLO的重要方法。

成为VIP会员查看完整内容
39

相关内容

《Mixup数据增强及其扩展》综述
专知会员服务
28+阅读 · 9月15日
基于LLM的多轮对话系统的最新进展综述
专知会员服务
55+阅读 · 3月7日
接入大模型的眼睛:一文纵览多模态指令
专知会员服务
82+阅读 · 2023年9月28日
智能遥感:AI 赋能遥感技术
专知会员服务
81+阅读 · 2022年5月29日
KDD 2021 | MoCL:利用多层次领域知识的分子图对比学习
专知会员服务
10+阅读 · 2022年5月20日
专知会员服务
32+阅读 · 2021年9月16日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
立体匹配技术简介
计算机视觉life
27+阅读 · 2019年4月22日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2012年12月31日
Arxiv
156+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《Mixup数据增强及其扩展》综述
专知会员服务
28+阅读 · 9月15日
基于LLM的多轮对话系统的最新进展综述
专知会员服务
55+阅读 · 3月7日
接入大模型的眼睛:一文纵览多模态指令
专知会员服务
82+阅读 · 2023年9月28日
智能遥感:AI 赋能遥感技术
专知会员服务
81+阅读 · 2022年5月29日
KDD 2021 | MoCL:利用多层次领域知识的分子图对比学习
专知会员服务
10+阅读 · 2022年5月20日
专知会员服务
32+阅读 · 2021年9月16日
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
相关资讯
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
从锚点到关键点:目标检测方法最新进展(2019)
GAN生成式对抗网络
14+阅读 · 2019年8月22日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
【综述】生成式对抗网络GAN最新进展综述
专知
57+阅读 · 2019年6月5日
立体匹配技术简介
计算机视觉life
27+阅读 · 2019年4月22日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
使用SSD进行目标检测:目标检测第二篇
专知
29+阅读 · 2018年1月28日
基于机器学习的KPI自动化异常检测系统
运维帮
13+阅读 · 2017年8月16日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员