昨天,谷歌研究人员提出一种深度CNN——NIMA,它能够预测人类认为哪些图像在技术和美学上看起来还不错。
NIMA与人类感知高度相关,不仅可以用来为图像评分,还能在很多劳动力密集的主观任务中发挥作用,如智能照片编辑、优化视觉质量提升用户参与度、减少图像pipeline中视觉感知的错误等。
在论文NIMA: Neural Image Assessment中,研究人员举了一个打有“天空”标签图像美感评分的例子——
在每张图片下,给出了NIMA评分和groundtruth(括号中分数)。可以看出,NIMA的打分结果与groundtruth相差不大。
图像质量和美感的量化是图像处理和计算机视觉中的一个问题。
图像质量评价(Image Quality Assessment,IQA)处理的是像素级的退化(degradation)问题,比如噪音、模糊、压缩失真等,美感评价为提取图像中与情感和美感相关的语义层次特征。
通常来说,图像质量评价可被分类为全参考(Full-Reference,FR)和无参考(No-Reference,NR)。
如果用于参考的理想图像可用,则如峰值信噪比(PSNR)、标准-结构相似度(SSIM)等图像质量指标已被开发。当参考图像不可用时,就可用无参考的方法依赖统计模型来预测图像质量。
两种方法的主要目的是预测与人类感知相关的质量分数。在深度CNN图像质量评价方法中,通过在目标分类相关数据集(如ImageNet)上的训练,对初始化权重,之后对带有注释的数据进行微调,完成感知质量评价任务。
尽管训练数据中的每个图像都与人类评分的直方图关联,而不是单一的二进制分数,但典型的美学预测方法是将图像分类为低质量和高质量。
评分直方图是衡量图像整体质量的指标,也是评分者之间的协议。在谷歌研究人员的方法中,NIMA模型并没有将图像分类为低/高的分数或回归到平均分,而是为任何给定的图像产生一个分布等级,在1到10的范围内,NIMA给每一个可能的分数赋值。
这与通常获取训练数据的方式一致,在与其他方法对照时,这种方法的结果能更好地预测人类偏好。
NIMA向量分值(如平均值)有很多功能,比如可以用来对照片进行美学排序。
下面显示了由NIMA对AVA数据集的一些图片进行的美学评分,括号中为200个人类的平均打分。经过训练后,NIMA打出的这些照片的美学评分非常接近人类评分员的平均打分。
研究人员发现,NIMA在其他数据集上的表现同样出色,预测的质量分数均接近于人类评分。
NIMA评分也可以用来比较同一主题的图像质量,这些图像可能以不同的方式被扭曲破坏。下面显示的图像是2013年的TID2013测试集的一部分,包含了图像各种类型和级别的失真。
可以看出,NIMA对模糊、失真图像的打分并不高。
正如谷歌研究人员在论文Learned Perceptual Image Enhancement中所展示的,质量和美学得分也可以用来在感知上调整图像增强操作。
换句话说,将NIMA评分作为损失函数的一部分,可能会提高图像感知质量。
下图例子表明,NIMA可以作为训练损失调整色调增强算法。可以观察到,根据NIMA评分的对比调整,能够提高审美评分的baseline。因此,NIMA模型能够引导一个深度CNN过滤器寻找美学上接近最优的参数设置,如亮度、高光和阴影等。
研究人员对NIMA的研究表明,基于机器学习的质量评价模型可被广泛应用,比如可以让用户在图库中轻松找到最佳图片,可以通过实时反馈给用户来改进图片等模型可以用来指导增强操作产生更好的结果。
不过,教模型更好地理解什么是质量和美学,还是一个持续且长久的挑战。
谷歌研究博客介绍地址:
https://arxiv.org/abs/1712.02864
NIMA: Neural Image Assessment论文地址:
https://arxiv.org/abs/1709.05424
Learned Perceptual Image Enhancement论文地址:
https://arxiv.org/abs/1712.02864
— 完 —
活动报名
加入社群
量子位AI社群12群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态