显著性物体检测技术起源于认知学中人类的视觉注意行为,即人类视觉系 统能够快速地将注意力转移到视觉场景中最具信息量的区域而有选择性地忽略 其它区域。该技术在现实生活中有着广泛的应用基础,如,自动驾驶、人机互 动、视频分割、视频字幕、视频压缩等。除了其学术价值和实际意义之外,由 于图像和视频数据(遮挡、模糊、运动模式等)自身的挑战以及人类在动态场 景中注意行为(选择性注意分配和注意转移)固有的复杂性,使得显著性物体 检测技术面临着巨大挑战。受制于采集设备,早期构建的显著性物体检测数据 集表达真实场景的能力非常有限。同时,这一领域的评价指标也是基于像素级 误差的, 完全忽略了人类认知规律的特性。上述问题,严重制约了显著性物体检 测技术的发展。
本文围绕图像视频显著性物体检测,研究了基于人类认知规律的数据集建 立、模型建模、评价指标三个方向的问题。主要创新点包括:
针对现有图像显著性物体检测公开测试存在的各种偏差问题,构建了一个 富上下文环境下的图像显著性物体检测数据集 SOC,并首次从属性层面对 现有方法进行了大量评测和深入的分析。
针对视频显著性物体检测中注意力转移的问题,构建了第一个高质量、稠 密标注的视频显著性物体检测 DAVSOD 数据集;提出了基于注意力转移 的 SSAV 模型,取得了国际领先的检测性能;提供了当前最大规模、最完 整的视频显著性物体评测结果。
针对非二进制显著性物体检测质量评价的问题,提出了符合人类认知规律 的度量指标 S-measure,使得评价方法从像素 -级过度到结构 -级,特别是 与人的主观评价一致性性能从低于 50% 提升到了 77%。
针对二进制显著性物体检测质量评价的问题,提出了符合人类认知规律的 度量指标 E-measure,使得评价方法在一个紧凑项中同时考虑了全局和局 部信息,上述方法相比国际最先进算法的性能提高了 19%。