水下图像目标检测是水下智能化探测的核心技术之一,广泛应用于工业及军事领域。深度学习相关技术的突破为水下图像目标检测的发展带来了新的机遇,但是目前该领域的综述较为陈旧,并且缺乏一定的系统性和全面性。该文对基于深度学习的水下可见光图像和声呐图像目标检测研究工作进行了详细总结与分析。首先,对基于深度学习的通用目标检测算法框架进行了梳理,包含骨干网络、颈部模块、检测头部、训练算法、推理策略、数据集6项要素,并系统性地总结了每个要素存在的问题及最新研究工作;然后,调研了水下可见光图像目标检测最新进展,分别从数据集发展、模型设计、训练算法进行总结;同时,归纳并分析了水下声呐图像目标检测相关工作,包含前视、侧扫、合成孔径三种声呐。最后,结合深度学习最新研究探讨了该领域的研究趋势。 https://jeit.ac.cn/cn/article/doi/10.11999/JEIT221402 随着工业及军事应用中智能化水下探测的需求增多,水下图像目标检测相关研究日益活跃,涉及水生物探测、水环境勘探、海床建模、打捞救助、海底管道探测、反水雷、反潜等众多项任务[1]。由于水下环境复杂多变、信号衰减失真、信号获取传输成本高,水下图像目标检测也是计算机视觉和图像处理领域中最具挑战性的应用研究之一[2]。目前国内水下无人探测尚未进行大规模应用,一个重要的原因就是检测算法性能不足,多数情况需要人工进行干预。如何提高算法精度和速度、丰富水下图像数据集、增强应对复杂环境的鲁棒性、提高算法的泛化性、降低模型计算复杂度,均是该领域中亟需解决的关键问题。
目标检测需要对图像中的目标进行分类和定位,早期依赖人工提取图像特征。然而面对各式各样的应用场景和复杂的环境干扰,传统的人工特征已经无法满足日益增长的需求。随着2012年AlexNet[3]采用卷积神经网络(Convolutional Neural Network, CNN)在ImageNet[4]大规模图像分类数据集上取得的突破性效果,深度学习被逐步应用于计算机视觉领域中的各项应用。深度学习利用大数据对网络模型进行端到端训练,克服了传统方法的诸多缺点。在水下图像目标检测领域,深度学习方法借助数据驱动的优势,已在 鱼类图像数据集Fish4Knowledge、全国水下机器人大赛(Underwater Robot Professional Contest, URPC)等开源可见光图像数据集和一些非公开声呐图像数据集中实现了更优的效果[2,5]。
系统性、模块化地分析通用目标检测算法框架,对水下图像目标检测的应用研究具有十分重要的指导意义,而目前的相关综述较为陈旧。数年前就有文献[6]对早期基于深度学习的通用目标检测(common object detection)研究进行了分类与总结,并与传统方法进行了对比,体现出深度学习的杰出效果。近几年深度学习算法研究呈井喷式增长,克服了模型设计和训练过程中的诸多难题,精度已接近早期深度学习方法的两倍。然而,较新的综述[7,8]依旧沿用早期的模型分类方法(2阶段与1阶段检测),未对较新的研究进行归纳。针对水下图像应用领域,Lin等人[9]对光学图像中目标探测关键技术进行了总结,文献[1,5]对声呐图像目标检测研究进行了总结,但他们梳理的文献较旧,并且对深度学习方法提及过少。Fayaz等人[10]着重介绍了早期通用目标检测算法,未对水下相关应用研究进行详细梳理。
基于此,本文第2节对基于深度学习的通用目标检测算法框架进行了系统性梳理,分类总结了最新研究工作;第3节从数据集构建及方法研究两方面总结了水下可见光图像目标检测最新进展;第4节对前视、侧扫、合成孔径3种声呐图像目标检测研究进行了归纳分析;第5节进行总结与展望。