在图像信息技术被广泛应用的情况下,对图像质量的评估变成一个广泛而基本的问题。由于图像信息相对于其它信息有着无可比拟的优点,因此对图像信息进行合理处理成为各领域中不可或缺的手段。在图像的获取、处理、传输和记录的过程中,由于成像系统、处理方法、传输介质和记录设备等不完善,加之物体运动、噪声污染等原因,不可避免地带来某些图像失真和降质,这给人们认识客观世界、研究解决问题带来很大的困难。
比如,在图像识别中,所采集到的图像质量直接影响识别结果的准确性和可靠性;又如,远程会议和视频点播等系统受传输差错、网络延迟等不利因素影响,都需要在线实时的图像质量监控,以便于服务提供商动态地调整信源定位策略,进而满足服务质量的要求;在军事应用方面,战场监视和打击评估的效果也取决于无人机等航拍设备所采集到的图像或视频的质量。
因此,图像质量的合理评估具有非常重要的应用价值。 从有没有人参与的角度区分,图像质量评价方法有主观评价和客观评价两个分支。主观评价以人作为观测者,对图像进行主观评价,力求能够真实地反映人的视觉感知;客观评价方法借助于某种数学模型,反映人眼的主观感知,给出基于数字计算的结果。
今天,“计算机视觉战队”主要和大家分享图像修复的质量评估。该技术主要是一种用于图像修复的图像质量评价(IQA)方法,旨在从多个结果中选择最佳的图像质量评价方法。众所周知,用修复和参数设置方法在修复的结果上有很大差异。因此,在典型的用例中,用户需要手动选择修复方法和获得最佳效果的参数。这种手动选择需要大量的时间,因此非常需要一种方法来自动估计最佳结果。
与现有的IQA修复方法不同,今天要说的方法在修复图像间基于学习排序任务来解决这个问题。这种方法使得引入自动生成的训练集进行更有效的学习成为可能,这对于现有的方法来说一直是困难的,因为修复质量的判断是相当主观的。该方法主要集中在以下三个方面:
1)将问题分解为一组“两两偏好排序估计”的基本问题;
2)这种两两排序方法使训练集能够自动生成;
3)通过对实际测量的人眼进行排序估计的研究,使有效的特征设计成为可能。
IQA methods for image inpainting
图像修复的难点之一是质量评估。其主要原因是主观评价的模糊性和获取培训数据的成本。由于前面讨论的问题,虽然对退化图像提出了许多有效的IQA方法,例如腐蚀、压缩或噪声图像,但这些方法不能用于评估修复图像。为了克服前面问题,获得主观评价,主要有三种方法。基于人类反应的IQA的基本概念是,由于人类感知的不自然性,较少自然的内画区域会聚集更多的目光。因此,该方法根据图像修复前后的凝视密度来估计图像质量。为了降低测量实际人类凝视的成本,许多度量方法使用计算视觉显着性而不是实际的凝视。计算视觉显著性图,是一种仅从图像中表示估计视觉显著性的排列图。如果显著性图能很好地反映人类的实际凝视模式,那么用它们来代替实际的凝视效果会很好。然而,遗憾的是,正如下面我们会提到的,显著性图的准确性是相当有限的,因此基于显著性图的IQA方法的性能也是有限的。
Ranking based image evaluation for subjective judgment
在许多主观评价任务中,很难提供绝对分数。例如,为微笑的程度评分是一项相当困难的任务,分数可能有很大差异。由于评估这种不同的主观分数是相当困难的,回避方法已被广泛考虑。基于学习和排序的方法现在被认为是一种有希望的解决方案,也不是绝对分数,他们提供了一个学习框架,只是排序分数的目标样本。回到上面引用的例子,按照微笑的程度对图像进行排序要比给每个图像的微笑分数更容易。
与现有的方法不同,今天所讨论的方法主要是对修复图像进行评估。由于评估修复图像的质量与评估其他劣化图像是一项非常不同的任务,该方法设计了新的图像特征,专门用于评估修复的图像。此外还表明,利用两两学习特征,可以自动生成训练数据,并利用这些数据提高估计精度。
许多IQA方法使用视觉显著性图代替实际的凝视。然而,我们对计算视觉显著性与实际人类凝视的一致性有疑问,尤其是在观察修复图像时。因此,在我们讲解所提出的方法之前,我们将描述其为两个目标进行的眼睛凝视测量实验。第一种方法是显示测量的凝视和显著性图之间的差异,并揭示在IQA中使用显著性图而不是实际的人类凝视的困难。二是分析修复图像中的区域和特征,重点在测量的凝视和相应的主观评价的基础上对图像质量进行评价。
上图显示了测试过程,其中重复了三项任务:(a) 盯着黑色背景上的白色十字架两秒钟来修正他们的初始观点,(B) 观察10秒图像,(C) 提供5份意见分数来表示图像质量的不自然。分数1-5分别对应于非常显著的、相当明显的、略显的、几乎不明显的和不明显的。分数越高越好,因为它们表明修复过程中发生的不自然现象是不明显的。
Integrity between computational saliency maps and human visual attention
在下图中,(A) 显示了修复目标图像,(B) 显示了一个修复结果,一个人站在船前被移走了。衡量人类注意力覆盖在(C)中。用其他人提出的计算方法计算视觉显著性图,分别见(D)、(E)和(F)。
这些图实际上被用来评估修复图像的质量,从这些图可以看出,计算视觉显著性图的分辨率是相当粗糙的,其结果有很大的差异。此外,显著性图与人类的视觉注意有很大的不同。如上图B所示,修复未能填充船的形状。由于这一失败会产生显著的非自然现象,所以最显著的凝视区域是在受损的船周围(见图C)。(D)和(E)项中的船周围区域有些突出,但在其他地区(例如其他船只或桨)更为突出。在(F)项中,根本没有代表船周围的突出情况。这些结果表明,计算视觉显著性图很难代替人的凝视。因此,有必要提出新的图像特征来代表这种不自然。
为了解决将主观评价结果反映到分数上的困难,将偏好顺序估计建立在从学习到排序的方法上。上图显示了新提出的方法概述。
Auto-generated training data
现有的基于学习的IQA修复方法学习图像特征与测试者提供的相应分数之间的关系。因此,它们需要用户注释的示例。
在这里,提出了一种有效的解决方案,即通过对图像的成对排序对图像进行IQA方法。它之所以有效,是因为它不需要任何绝对分数,而只需要两两关系。添加一些失真,如像素值的比例变化或应用低通滤波器,对原始图像往往发生修复的结果。这种失真图像和原始图像的几个级别产生训练数据,假设增加失真会减少偏好。
当然,原始图像比畸变图像具有更好的质量。因为该方法只需要两两关系,而不是绝对分数,这种简单的关系使得图像变得更加扭曲,可以作为一个训练数据源。上图显示了用于训练的几个级别的自动生成图像的示例。通过将原始图像和失真图像结合起来,合成了第一次自动生成的训练图像。
Features for learning-to-rank
新框架设计了图像特征,称之为基于特征补丁的轮廓一致性(PBCC)。正如人类的感知对受损/扭曲区域之间的颜色或边缘不连续性非常敏感,将其结合起来设计PBCC。PBCC由以下两个部分组成:(1) 损伤/畸变区域的输入/输出差异;(2) 轮廓周围的归一化图像。
前者代表整个受损/扭曲区域轮廓的连续性。后者代表了图像的相对质量,受损区域内外部分图像质量的一致性在很大程度上影响着主观质量。因此,即使受损区域内的图像质量是相同的,它的感知质量取决于其周围区域的质量。如下图所示,为了使这些特征专门用于评估内画图像,沿着受损/失真区域的等值线计算这些分量。
实验流程图
表1 不同图像特征的性能比较
为了显示其他现有方法失败的原因,在上图中的左上方和底部图像上覆盖了一个显著图。a-c与上上上图有关;原始图像和修复图像。上层图像显示,两幅图像之间没有显著性差异。在下面的图像中,b收集了更多的目光,尽管受试者更喜欢(b)。
End
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。
微信学习讨论群也可以加入,我们会第一时间在该些群里预告!