点击上方“CVer”,选择加"星标"或“置顶”
重磅干货,第一时间送达
作者: 一个闲人
https://zhuanlan.zhihu.com/p/104260766
本文已由原作者授权,不得擅自二次转载
随着深度学习近几年在计算机视觉(CV)领域的突破,SAR图像舰船目标检测领域的研究人员也开始采用这些深度学习的方法。
本人于2017年建立了第一个用于训练和测试基于深度学习的SAR图像舰船目标检测算法的数据集SSDD,并给出了一些算法的检测效果,证明了深度学习检测算法用于SAR图像舰船目标检测的可行性。
2019年中科院遥感所和电子所分别又构建了两个更好的数据集
SAR-Ship-Dataset 链接:
https://zhuanlan.zhihu.com/p/84990739
AIR-SARShip-1.0 链接:
http://radars.ie.ac.cn/web/data/getData?dataType=SARDataset
电子科技大学的苏浩同学也会在2020年1月发布数据集ISSID,可以用于检测、语义分割和实例分割。
https://github.com/chaozhong2010/ISSID
近几年,虽然随着深度学习的引入,此领域得到了快速的发展。但是本人认为,它仍然存在以下问题:
第一,目前该领域存在着较为粗放的模式,许多人为了纯粹发论文而发论文(包括以前的我)。论文的创新性对于SAR图像领域专家而言可能较大,但是从CV的角度创新性一般。毕竟SAR图像领域专家和CV领域专家所掌握的领域知识和看问题的角度是不同的。
第二,缺少全面而准确的baseline。目前,公开的几个数据集只给了个别算法的性能,很多检测算法的效果都没给。
第三,过多的从可见光图像角度来考虑问题,而未考虑SAR图像及舰船目标的特性,如背景强散射杂波的不均匀性,目标的不完整性、十字旁瓣模糊和临近目标干扰等特性。
第四,采用的都是垂直边框,而未采用适合舰船目标的旋转边框。
第五,加载预训练模型问题较多。SAR图像是单通道的,光学图像是三通道的,直接借用CV算法需要将SAR图像复制成三通道,造成大量的重复计算。而且还要加载在光学图像数据集预训练的模型参数,这些参数不一定适用于SAR图像领域。
所以,本人认为,此领域的研究不要做以下事情:
1、对CV领域的检测算法的骨干网络进行小改进,例如密集连接、注意力机制、多层融合和金字塔等。这些已在CV领域证明好用,没必要再在SAR领域证明。
2、“拿来主义”,即将CV算法拿来直接用到SAR图像。我们应该具体分析光学图像与SAR图像异同(后者图片尺寸一般较大且图像通道个数为1),具体分析目标尺寸分布(后者目标尺寸一般较小),具体分析目标长宽比分布(前者为大部分为1,后者大部分远大于1),对算法进行针对性的改进。
3、download-run-over。CV领域算法代码github上容易获得,不要下载下来跑出结果就完事了。这些代码较为复杂,要多读代码,才能更深的理解,才能更好的改进算法。
应该做以下事情:
1、分析数据集中舰船目标的具体分布,设置具有针对性的anchor。
2、建立全面而准确的baseline(正在做)。
3、采用旋转边框进行检测(借鉴DOTA数据集)。
4、最重要的是用从头训练检测算法!加载ImageNet上的预训练模型问题很大,加载的这些模型不是为SAR图像设计的而是为光学图像设计的,自己设计CNN并在SAR图像数据集上从头训练才是正确的方法(此时设计的CNN通道个数起码会比原来的少三分之二)。从头训练是本领域摆脱CV阴影的必由之路!而且相关研究表明(ScratchDet和Rethinking pre-train两个论文),从头训练是完全可行的!以后此领域的研究人员可根据具体的任务需求设计适合自己的CNN(精度或低或高,模型尺寸或大或小)并进行从头训练,才是正确的研究思路。
5、Anchor based检测算法默认在SAR图像或者其特征图上密集生成大量的锚框(anchor),这对于目标密集的自然场景图片是适用的。但是,SAR图像中舰船目标是非常稀疏的,生成过多的锚框是没有必要的,这还会大幅增加计算量,因此SAR图像目标检测特别适合anchor free类的检测算法。Anchor free 检测算法通过在图片中检测关键点的方法来寻找目标,候选区域个数与目标个数近似,不会存在重复计算的问题。
6、机载/星载实时处理,涉及到轻量化检测算法设计、模型压缩与加速和AI芯片,这也是未来必然趋势。
推荐阅读
重磅!吴恩达新书《机器学习训练秘籍》中文版来了(附PDF下载)
---End---
科研学术,寒假不打烊!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎加入CVer学术交流群。涉及图像分类、目标检测、图像分割、人脸检测&识别、目标跟踪、GANs、Re-ID、医学影像分析、姿态估计、OCR、SLAM、场景文字检测&识别、PyTorch和TensorFlow等方向。
▲扫码进群
▲长按关注我们
麻烦给我一个在看!