会员服务 ·

谷歌提出深度CNN模型NIMA：帮你挑选清晰且有美感的图片

2017 年 12 月 19 日 量子位 专注报道AI

安妮编译自 Google Research Blog
量子位出品 | 公众号 QbitAI

昨天，谷歌研究人员提出一种深度CNN——NIMA，它能够预测人类认为哪些图像在技术和美学上看起来还不错。

NIMA与人类感知高度相关，不仅可以用来为图像评分，还能在很多劳动力密集的主观任务中发挥作用，如智能照片编辑、优化视觉质量提升用户参与度、减少图像pipeline中视觉感知的错误等。

在论文NIMA: Neural Image Assessment中，研究人员举了一个打有“天空”标签图像美感评分的例子——

在每张图片下，给出了NIMA评分和groundtruth（括号中分数）。可以看出，NIMA的打分结果与groundtruth相差不大。

图像质量和美感评价

图像质量和美感的量化是图像处理和计算机视觉中的一个问题。

图像质量评价（Image Quality Assessment,IQA）处理的是像素级的退化（degradation）问题，比如噪音、模糊、压缩失真等，美感评价为提取图像中与情感和美感相关的语义层次特征。

通常来说，图像质量评价可被分类为全参考（Full-Reference,FR）和无参考（No-Reference,NR）。

如果用于参考的理想图像可用，则如峰值信噪比（PSNR）、标准-结构相似度（SSIM）等图像质量指标已被开发。当参考图像不可用时，就可用无参考的方法依赖统计模型来预测图像质量。

两种方法的主要目的是预测与人类感知相关的质量分数。在深度CNN图像质量评价方法中，通过在目标分类相关数据集(如ImageNet)上的训练，对初始化权重，之后对带有注释的数据进行微调，完成感知质量评价任务。

NIMA

尽管训练数据中的每个图像都与人类评分的直方图关联，而不是单一的二进制分数，但典型的美学预测方法是将图像分类为低质量和高质量。

评分直方图是衡量图像整体质量的指标，也是评分者之间的协议。在谷歌研究人员的方法中，NIMA模型并没有将图像分类为低/高的分数或回归到平均分，而是为任何给定的图像产生一个分布等级，在1到10的范围内，NIMA给每一个可能的分数赋值。

这与通常获取训练数据的方式一致，在与其他方法对照时，这种方法的结果能更好地预测人类偏好。

NIMA向量分值（如平均值）有很多功能，比如可以用来对照片进行美学排序。

下面显示了由NIMA对AVA数据集的一些图片进行的美学评分，括号中为200个人类的平均打分。经过训练后，NIMA打出的这些照片的美学评分非常接近人类评分员的平均打分。

△ NIMA在AVA数据集上对景观标签图像打分，两数值为NIMA评分和ground truth

研究人员发现，NIMA在其他数据集上的表现同样出色，预测的质量分数均接近于人类评分。

NIMA评分也可以用来比较同一主题的图像质量，这些图像可能以不同的方式被扭曲破坏。下面显示的图像是2013年的TID2013测试集的一部分，包含了图像各种类型和级别的失真。

△ NIMA预测评分

可以看出，NIMA对模糊、失真图像的打分并不高。

感知图像增强

正如谷歌研究人员在论文Learned Perceptual Image Enhancement中所展示的，质量和美学得分也可以用来在感知上调整图像增强操作。

换句话说，将NIMA评分作为损失函数的一部分，可能会提高图像感知质量。

下图例子表明，NIMA可以作为训练损失调整色调增强算法。可以观察到，根据NIMA评分的对比调整，能够提高审美评分的baseline。因此，NIMA模型能够引导一个深度CNN过滤器寻找美学上接近最优的参数设置，如亮度、高光和阴影等。

△ NIMA可以作为训练损失来增强图像/通过训练一个深度CNN和NIMA作为的损失，增强图像的局部色调和对比度

未来发展

研究人员对NIMA的研究表明，基于机器学习的质量评价模型可被广泛应用，比如可以让用户在图库中轻松找到最佳图片，可以通过实时反馈给用户来改进图片等模型可以用来指导增强操作产生更好的结果。

不过，教模型更好地理解什么是质量和美学，还是一个持续且长久的挑战。

相关资料

谷歌研究博客介绍地址：

https://arxiv.org/abs/1712.02864

NIMA: Neural Image Assessment论文地址：

https://arxiv.org/abs/1709.05424

Learned Perceptual Image Enhancement论文地址：

https://arxiv.org/abs/1712.02864

— 完 —

活动报名

加入社群

量子位AI社群12群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot4入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

NIMA

关注 0

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【ACL2020-Google】BLEURT:一种基于迁移学习的自然语言生成度量

专知会员服务

20+阅读 · 2020年5月12日

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

专知会员服务

28+阅读 · 2020年2月20日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

ICCV 2019 最佳论文《SinGAN：从单张自然图像学习生成式模型》中文全译

AI科技评论

11+阅读 · 2019年10月30日

【学界】何恺明团队新作ResNext：Instagram图片预训练，挑战ImageNet新精度

GAN生成式对抗网络

4+阅读 · 2019年6月26日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

去噪算法升个级，图片瞬间变清晰 | 论文

量子位

7+阅读 · 2019年1月22日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

谷歌新研究用深度学习合成运动模糊效果，手抖也能拍出摄影师级照片

新智元

7+阅读 · 2018年12月28日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

FAIR提出人体姿势估计新模型DensePose-RCNN，升级版Mask-RCNN

极市平台

7+阅读 · 2018年2月7日

学界 | 谷歌研究院发布 NIMA：能评价图像有多美，还能让图像变得更美

AI科技评论

11+阅读 · 2017年12月19日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

Simple Multi-Resolution Representation Learning for Human Pose Estimation

Arxiv

6+阅读 · 2020年4月14日

Learning to Estimate Pose and Shape of Hand-Held Objects from RGB Images

Arxiv

5+阅读 · 2019年3月8日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

Binary Constrained Deep Hashing Network for Image Retrieval without Manual Annotation

Arxiv

3+阅读 · 2018年8月2日

CNN+CNN: Convolutional Decoders for Image Captioning

Arxiv

21+阅读 · 2018年5月23日

The Lovász-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks

Arxiv

4+阅读 · 2018年4月9日

Mix-and-Match Tuning for Self-Supervised Semantic Segmentation

Arxiv

8+阅读 · 2018年1月30日

Semi-supervised FusedGAN for Conditional Image Generation

Arxiv

8+阅读 · 2018年1月17日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

VIP会员

谷歌提出深度CNN模型NIMA：帮你挑选清晰且有美感的图片

安妮 编译自 Google Research Blog量子位 出品 | 公众号 QbitAI

图像质量和美感评价

NIMA

△ NIMA在AVA数据集上对景观标签图像打分，两数值为NIMA评分和ground truth

△ NIMA预测评分

感知图像增强

△ NIMA可以作为训练损失来增强图像/通过训练一个深度CNN和NIMA作为的损失，增强图像的局部色调和对比度

未来发展

相关资料

相关内容

安妮编译自 Google Research Blog
量子位出品 | 公众号 QbitAI