本论文旨在研究复杂场景下高精度的有向目标检测算法。有向目标检测是 通用水平目标检测的一个扩展研究方向,其主要特点是可以更精准地定位目标, 并擅长完成包含大量密集排列、大长宽比、方向任意目标的复杂场景的检测任 务。大量文献表明,有向目标检测不仅在计算机视觉领域中有着重要的学术研 究价值,在国防建设、科学技术、医学治疗、食品健康、工业发展、环境保护、 农业养殖、公共安全、文化传播等领域也具有广阔的应用价值。 受益于通用水平目标检测在深度学习时代的蓬勃发展,有向目标检测器可 以很轻松地基于先进的水平检测算法进行实现。但是,有向目标检测的研究常常 需要面对一些独特的问题挑战,如不同定义法下由边界不连续造成的损失陡增、 类正方目标导致的表示歧义等。如何更加高效地实现高精度有向目标检测已成 为当下的研究热点。本论文以有向目标检测为研究重点,在鲁棒有向目标检测 器搭建、高效位姿参数估计、弱监督算法探索以及有向目标检测工具设计这四个 方面来扩展和完善现有的算法。论文的主要贡献包含以下几方面:
• 介绍了如何基于一个水平目标检测器搭建出一个有向目标检测器,主要内 容包括不同旋转框的定义、不同锚框的形式、旋转框重叠率的计算、回归 参数的估计以及回归损失等基础知识。
• 提出了一种从粗到细的渐进式回归的有向目标检测器 R 3Det。本文针对单 阶段级联检测器中存在的特征不对齐问题设计了特征精修模块,最终在精 度和速度之间取得了较佳的平衡。
• 在特定旋转框定义法下,本文通过将角度估计方式从回归转换成精细的分 类(CSL 和 DCL)以解决有向目标检测中的边界不连续问题,并进一步采 用四边分类的策略在构造的新数据集 OHD-SJTU 上实现了目标头部检测。
• 为同时解决边界不连续、类正方形检测以及评估与损失不一致性等问题, 本文提出了高斯分布建模和距离度量技术(GWD 和 KLD)。通过尺度不变 性证明和梯度分析,本文发现使用 KLD 作为最终的回归损失可以显著地 提升高精度指标。
• 在保留高斯分布建模的优势下,本文提出了使用分布之间的相似性度量 (KFIoU) 取代距离度量,更好地解决了评估与损失不一致的问题并在不引 入任何超参数的情况下取得了性能的提升。
• 本文首次在目标检测领域中提出了一个新的研究课题:基于水平框标注 训练的弱监督有向目标检。同时,本文设计了一种新的自监督的网络架构 (H2RBox),其通过衡量输入图片在不同视图下的一致性来实现精准的旋转。框估计。与基于弱监督实例分割的方法相比,H2RBox 具有性能高、速度 快和存储需求低的优势,且各方面都接近强监督有向目标检测算法。
• 从学术研究、工业部署和国产化三个角度出发,本文分别基于 TensorFlow、 PyTorch 和 Jittor 搭建了三种各具特色的有向目标检测工具:MMRotate、 AlphaRotate 和 JDet,为有向目标检测的发展和应用提供了便利。