【导读】显著目标检测(Salient Object Detection,SOD)作为近年来的研究热点之一,受到了广泛关注,每年在计算机视觉三大会议(ICCV, CVPR, ECCV)上大量相关文章发表。这篇新出论文首次对基于深度学习技术的SOD进行了全面综述。起源人工智能研究院高级研究员王文冠博士等人首先从网络架构、监督级别等多个不同的角度对基于深度学习技术的显著性目标检测(deep SOD)模型进行了仔细的回顾和梳理。然后,总结了流行的SOD数据集和评估标准,对代表性的deep SOD模型进行了大规模评测,研究了不同输入图像属性下的deep SOD算法的性能,并进一步研究了deep SOD模型在对抗攻击下的鲁棒性和可移植性,以及输入扰动的影响,和现有SOD数据集的泛化性。最后,讨论了SOD领域存在的一些问题和挑战,并指出了今后可能的研究方向。综述中所有的相关数据、评测代码、以及37个SOD模型在6个数据集上的结果已发布在:
https://github.com/wenguanwang/SODsurvey。
题目:Salient Object Detection in the Deep Learning Era: An In-Depth Survey
作者:Wenguan Wang, QiuxiaLai, Huazhu Fu, Jianbing Shen, Haibin Ling
起源人工智能研究院(Inception Institute of Artificial Intelligence,IIAI)高级研究员 :王文冠
(https://sites.google.com/site/wenguanwangwwg/),
香港中文大学在读博士生:赖秋霞,
起源人工智能研究院高级研究员:付华柱
起源人工智能研究院首席科学家、北京理工大学教授:沈建冰
天普大学教授:凌海滨
【摘要】图像显著目标检测(SOD)作为计算机视觉领域中的一个重要问题,近年来受到越来越多学者的关注。毫无疑问,显著性目标检测的最新进展主要由基于深度学习的解决方案(deep SOD)主导,这在数百篇已发表的论文中得到了很好的体现。为了加深对deepSOD模型的理解,本文从算法分类到未解决的开放问题等各个方面进行了全面的梳理。具体地,我们首先从网络架构、监督级别、学习范式和目标/实例级别检测等不同角度回顾了deep SOD算法。然后,我们总结了现有的常见SOD评估数据集和指标,同时在现存工作的基础上,对现有的代表性deep SOD模型进行了大规模评测,并对比较结果进行了详细的分析。此外,通过构造一个新的具有丰富属性标注的SOD数据集,我们研究了不同属性下deep SOD算法的性能。值得一提的是,我们首次在该领域分析了deep SOD模型在对抗攻击下的鲁棒性和可移植性。我们还研究了输入扰动的影响,以及现有SOD数据集的泛性和难易程度。最后,讨论了SOD领域存在的一些问题和挑战,并指出了今后可能的研究方向。文中总结的所有模型的显著性预测结果、以及新构建的带标注的数据集和用于评估的代码都已发布在
https://github.com/wenguanwang/SODsurvey。
参考链接:
https://arxiv.org/abs/1904.09146
代码链接:
https://github.com/wenguanwang/SODsurvey
请关注专知公众号(点击上方蓝色专知关注)
后台回复“显著性目标检测综述” 就可以获取最新论文的下载链接~
引言
显著目标检测(SOD)是为了突出图像中显著的目标区域。SOD不同于起源于认知和心理学研究领域的人眼注视点预测(Fixation Prediction),它更多地被有关领域中目标级别的应用(object-level application)所驱动。在计算机视觉中,SOD的主要应用包括图像理解[1]、[2]、图像描述生成(imagecaptioning)[3]-[5]、目标检测[6]、[7],无监督视频目标分割[8]、[9],语义分割[10]-[12],行人重识别[13]、[14]等。在计算机图形学中,SOD被广泛应用于图像渲染[15]、[16]、图像自动裁剪[17]、图像重定向[18]、[19]、视频摘要[20]、[21]等任务。机器人领域中的典型应用,如人机交互[22]、[23]和目标发现[24]、[25],也受益于SOD。
近年来,随着深度学习技术的复兴,显著目标检测(SOD)获得了极大发展,这得益于深度学习技术强大的表示学习方法。自2015年以来[26]-[28],基于深度学习的SOD(或称deep SOD)算法很快就显示出优于传统解决方案的性能,并一直占据各种测试排行榜的榜首。另一方面,学术界近几年已经有数百篇关于deep SOD的研究论文发表,有效地了解和总结当前SOD的技术水平变得非常重要。
在本文中,作者对深度学习时代的SOD技术进行了全面深入的综述。该综述旨在全面涵盖deep SOD和相关问题的各个方面,从算法分类到未解决的开放问题。除了对现有的SOD方法和数据集进行分类研究外,还研究了一些重要的、但在很大程度上尚未得到充分研究的问题,如SOD中不同图像属性的影响,以及SOD模型在对抗攻击下的鲁棒性和可移植性。为了对这些全新问题展开研究,作者构建了一个新的SOD数据集并进行了详细标注。文中总结的所有显著性算法预测结果、以及新构建的带标注的数据集和用于评估的代码都已发布在https://github.com/wenguanwang/SODsurvey上。
图1 SOD的简要发展年表。最早的SOD模型可以追溯到Liu et al. [29]和Achanta et al. [30]。2015年出现了基于深度学习技术的SOD模型。更详细的描述,请参见原文。
表1 其它显著性检测领域相关综述工作的总结。
在本文中,作者的贡献总结如下:
1. 从多个角度对deep SOD模型进行系统回顾。根据网络架构、监督级别、学习范式等对现有的deep SOD模型进行分类和总结。所提出的分类旨在帮助研究人员更深入地了解SOD在深度学习时代的关键特性。
2. 基于图像属性特征的deep SOD模型性能评测。并提供了考虑对象类别、场景类别和挑战因素的带标注的属性特征。在此基础上,对代表性的SOD模型的性能进行了评估,并讨论了这些属性特征对不同算法的影响以及深度学习技术带来的改进。
3. 关于输入扰动影响的讨论。研究了不同类型的图像扰动对代表性的SOD算法的影响。这项研究有望为频繁包含噪音的实际应用提供有用的指导。
4. 首次对SOD模型进行对抗攻击分析。在诸如场景识别这样的典型计算机视觉任务中,神经网络被证明非常容易受到视觉上难以察觉的对抗攻击,然而对抗攻击如何影响deep SOD模型仍未被研究。文章对这一问题的进行了研究,这可以作为未来研究deep SOD模型的鲁棒性和可移植性的基准。
5. 跨数据集综合研究。SOD数据集的采集往往带有一定的偏差[41],因此,采用代表性的基准模型对现有的SOD数据集进行跨数据集泛化性的研究。
对未决问题和未来方向的概述。文章最后深入研究了模型设计、数据集收集、SOD与其它有关研究领域的关系等几个重要的基本问题,为今后的研究指明了方向。
表2 对代表性的deep SOD模型的总结。
图2 Deep SOD模型的典型网络结构。(a)基于MLP方法; (b)-(f)基于FCN的方法,主要使用(b) single-stream、(c) multi-stream、(d) side-out fusion、(e) bottom-up/top-down和(f) branch网络架构。(g)基于混合网络的方法。
表3 对代表性的SOD数据集的总结。
表4 在6个著名数据集上对29个典型的deep SOD模型和3个性能最好的传统SOD方法的评估结果。
图4 从6个SOD数据集中随机选取图像作为混合基准的样本图像。显著的区域被标定并列出了相应的属性。有关更详细的描述,请参见原文5.2节。
表9对抗攻击的结果,参见原文5.4节
表10 针对现有SOD数据集泛化性和难易程度的研究,参见原文5.5节
结论
本文是首次以深度学习技术为核心对SOD进行的全面综述。作者首先从网络架构、监督级别等多个不同的角度对基于深度学习的SOD模型进行仔细的回顾和梳理。然后,总结了流行的SOD数据集和评估标准,并提供了覆盖主要SOD方法的全面性能评估。
文中总结的所有显著性算法预测结果图、构建的数据集及标注,以及用于评估的代码已发布在 https://github.com/wenguanwang/。由于深度学习技术的惊人发展,SOD取得了显著的进步,但仍有很大的改进空间。我们期望这篇综述能够对SOD领域的现状提供深度全面的总结,更重要的是,可以为SOD领域未来的探索提供有益见解。
-END-
专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!
请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~
专知《深度学习:算法到实战》课程全部完成!530+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!
点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程