显著提升真实数据超分性能，南大&腾讯开源图像超分新方案，获NTIRE2020双赛道冠军

2020 年 6 月 13 日 极市平台

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

心心念念的文章<NTIRE2020-RWSR冠军方案>终于发出来了。该文是南京大学&腾讯优图提出的一种图像超分方案，它在NTIRE2020-RWSR两个赛道获得了冠军。先看个效果图，有没有觉得这个效果是真的非常棒！

Abstract

基于深度学习的图像超分方案在合成数据集取得了令人振奋的效果，然而在真实世界应用时却出现了性能的急剧下降，主要原因：训练数据采用双三次插值合成。为解决上述问题，首先，作者提出一种新的数据制作方案：统计模糊核与真实噪声分布并用于制作训练数据对。所提方案可以使得LR与真实世界图像处于同域，进而将提升图像超分的性能。然后，作者提出一种真实世界超分模型以获得更好的感知效果。作者在合成数据与真实数据上验证了所提方案的SOTA性能(更低的噪声、更好的视觉质量)，所提方案在NTIRE2020-RWSR两个赛道夺冠。

Method

作者首先分析了不同核在下采样图像上的影响性分析。假设原始真实图像域，清晰的HR域为，不同的模糊核对于下采样图像的影响非常大，双三次下采样核一种理想的核(它尽可能的保持与具有相同的信息)。然而这些下采样后图像已转换到另外一个域。在数据对上训练的模型在上性能表达极好，然而在上的表现却差强人意。下采样图像的另外一个问题是：几乎不含噪声。而真实世界图像往往包含大量的噪声，也就是说：仅仅估计模糊核难以精确模拟降质过程。

作者通过上述分析并结合已有超分方案在不同数据上的效果差异得出这样一个结论：“真实世界超分的关键问题在于如何引入精确的降质模型以确保生成的LR图像与原始图像具有同域属性(比如噪声分布、模糊等)”。为解决前述所提到的问题，作者提出了一种新颖的数据制作方案。

Real Degradation

首先介绍一下适用于超分的真实降质过程，它可以描述为：

其中，分别表示模糊核与噪声。在实际场景，均未知的。为更精确的估计降质模型，我们需要从图像中估计模糊核与噪声。一旦得到这些模糊核与噪声，我们就可以利用其构建一个降质池用于对清晰HR图像降质生成LR图像。该数据制作过程可以描述如下：

Kernel Estimation

作者采用了类似KernelGAN的方式从真实图像中估计模糊核，KernelGAN的生成器是一种线性模型且不包含任何激活层，因此它的参数可以组合为一个固定核，该估计核满足如下约束：

其中表示由核k得到的下采样LR图像，表示由理想核得到的下采样图像。第二项则是正则项约束，第三项是边界惩罚项，最后一项通过判别方式确保源域信息一致性。

Clean-Up：为得到更多的HR图像，首先从源域生成无噪图像，作者采用双三次下采样方式对源域真实图像进行处理，它可以移除噪声同时确保图像的锐利度。假设表示双三次核，这里所提出的得到HR图像的过程可以描述为：

Degradation: 作者将经双三次插值得到的图像视作HR，然后从前述构建的降质池中随机选择模糊核，采用下面的方式公式进行LR图像的制作：

Noise Injection

前面也提到了噪声也是真实世界图像复原应用中非常关键的一个环节，那么如何将噪声注入呢？作者这里提出一种非常容易理解的方案，容我细细道来。

由于LR的获取过程中，图像的高频信息被丢失了，同时也会导致噪声分布发生了变化。为使最终得到的LR图像与源域中的图像具有相似的噪声分布，作者提出直接从源域数据中收集噪声。作者指定了这样一个规则：如果某个块的方差小于设定的阈值，则将其纳入到降质池中。这个规则可以描述为:

其中，分别表示方差函数与预设最大方差。

在得到图像噪声块后，剩下的就是制作带有噪声的LR图像了，这个就简单了。

Loss

在超分模型方面，作者并未进行任何创新，它直接采用ESRGAN作为生成器。在损失函数方面，作者选用下面的损失组合：

在损失方面，它与ESRGAN存在些微区别，主要是判别器：采用了块判别器而非ESRGAN中的VGG。块判别器确保了生成器不会产生类似ESRGAN的伪影问题。

Experiments

训练数据1: DF2K，它由DIV2K和FlickrK构成，包含3450图像。这些图像将被添加高斯噪声以模拟传感器噪声。对应的验证数据包含100图像，用于进行度量指标统计。

训练数据2：DPED，它包含由iphone3拍摄5614图像，且未经处理的真实图像，更具挑战性：包含噪声、模型、低光以及其他低质问题。对应的验证数据包含100图像，由于无对应GT，它主要用于提供视觉对比。

评价准则：PSNR、SSIM、LPIPS等。

Evaluation on Corrupted Images

作者首先在DF2K数据集上对所提方案与其他超分方法进行了对比，对标方法包含EDSR、ESRGAN、ZSSR、K-ZSSR等，评价准则主要关注LPIPS。指标与视觉效果对比如下，可以看到：

所提方案具有最佳LPIPS指标，这意味着在视觉效果方面它与GT最为接近；
所提方法生成的图像具有更少的噪声，更锐利的纹理细节，且不会产生类似ESRGAN的伪影。

注：为更好的说明作者生成的LR图像，笔者从DIV2K-val数据集中挑出了同一张图。可以下图的对比可以看到：作者用来做测试的LR图像已经被注入了噪声。而对标的EDSR、ESRGAN应该并未在新构建的数据集上进行finetune。

Evaluation on DPED

由于该文所提方案更关心的是它在真实图像超分方面的性能(也就是DF2K上的实验只是“小打小闹”，哈哈)，因此作者进一步在DPED数据集上进行了评估。视觉效果见下图，相比其他超分方案，所提方法生成的结果具有更少的噪声和伪影，这也意味着噪声注入方式得到的噪声估计与真实噪声分布非常接近。

NTIRE2020

该文所提方案取得了NTIRE2020-RWSR竞赛两个赛道的冠军。赛道1为合成数据；赛道2为智能手机拍摄的真实数据。相关结果如下所示。注：赛道1采用的评估指标为MOS，赛道2采用的指标为MOR。所提方法在两个赛道以极大优势夺冠，棒棒哒！

Ablation Study

最后附上作者进行的一些消融实验结果，如下所示。

Bicubic：采用双三次插值下采样合成数据，这种方式理解为ESRGAN模型在DPED上微调；该对比可以用来验证ESRGAN对于真实数据的鲁棒性。
Noise：将噪声添加到双三次下采样图像上，它用于与全套方案一起验证核估计的有效性。
Kernel：这里仅仅采用kernel估计，而未采用噪声注入，用于验证噪声注入的必要性。
VGG-128：用于验证块判别器的作用；
Patch：采用更轻量的块判别器，用于验证前述判别器替换结论。

从上述对比主要可以得出这样几个结论：

核估计对于超分的训练非常重要，它有助于生成更锐利的边缘；
噪声注入有助于确保超分模型测试阶段的鲁棒性；
块判别器有助于缓解原始ESRGAN的假性纹理现象。

Conclusion

总而言之，作者提出一种新颖的数据制作方案：它确保了生成了LR图像具有与源域图像相近的属性(比如噪声分布)。与此同时，结合GAN方式的模型训练使得最终的生成器可以生成具有更佳视觉效果的图像，在真实数据上具有更低的噪声、更佳的视觉效果。所提方案还在NTIRE2020-RWSR竞赛的两个赛道夺冠。

通篇看下来，个人感觉这篇论文最关键的一点在于：真实噪声的获取与注入。

◎作者档案

Happy，一个爱“胡思乱想”的AI行者

个人公众号：AIWalker

欢迎大家联系极市小编（微信ID:fengcall19）加入极市原创作者行列

推荐阅读

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

超分

关注 0

【ICML2020-中科院】论文本生成中质量/多样性评价与分布拟合目标之间的关系

专知会员服务

17+阅读 · 2020年7月6日

【CVPR2020】时序分组注意力视频超分

专知会员服务

31+阅读 · 2020年7月1日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

196+阅读 · 2020年5月14日

【综述】生成式对抗网络(GANs)最新2020综述:挑战、解决方案和未来方向，Generative Adversarial Networks (GANs): Challenges, Solutions, and Future Directions

专知会员服务

63+阅读 · 2020年5月12日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

专知会员服务

28+阅读 · 2019年12月19日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

ICCV 2019 | 北邮提出高阶注意力模型，大幅改进行人重识别SOTA精度

极市平台

67+阅读 · 2019年8月31日

基于深度学习的超分辨率图像技术一览

极市平台

17+阅读 · 2019年8月24日

竞赛推荐 | ChinaMM2019 竞赛-1：水下图像增强

极市平台

13+阅读 · 2019年5月7日

【ICIP2019竞赛】恶劣天气下的图像增强竞赛

极市平台

4+阅读 · 2019年4月28日

CVPR 2019 | 神奇的超分辨率算法DPSR：应对图像模糊降质

计算机视觉life

16+阅读 · 2019年4月25日

CVPR 2019 | 旷视、中科大、自动化所联合提出超分辨率新方法Meta-SR：单一模型实现任意缩放因子

人工智能前沿讲习班

6+阅读 · 2019年3月31日

CVPR2019 | 西北工业大学开源拥挤人群数据集生成工具，大幅提升算法精度

极市平台

9+阅读 · 2019年3月14日

WDSR (NTIRE2018 超分辨率冠军)【深度解析】

极市平台

6+阅读 · 2019年2月23日

PS-GAN：如何合成高质量行人图像提升行人检测性能？

极市平台

5+阅读 · 2018年6月6日

【应用】深度对抗学习在图像分割和超分辨率中的应用

GAN生成式对抗网络

4+阅读 · 2017年9月12日

Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark

Arxiv

46+阅读 · 2019年9月22日

LadderNet: Multi-path networks based on U-Net for medical image segmentation

Arxiv

7+阅读 · 2019年8月28日

Object detection on aerial imagery using CenterNet

Arxiv

6+阅读 · 2019年8月22日

Image Captioning with Integrated Bottom-Up and Multi-level Residual Top-Down Attention for Game Scene Understanding

Arxiv

3+阅读 · 2019年6月16日

Progressive Sparse Local Attention for Video object detection

Arxiv

4+阅读 · 2019年3月21日

A CNN-RNN Framework with a Novel Patch-Based Multi-Attention Mechanism for Multi-Label Image Classification in Remote Sensing

Arxiv

3+阅读 · 2019年2月28日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

RAM: Residual Attention Module for Single Image Super-Resolution

Arxiv

9+阅读 · 2018年11月29日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Caffeinated FPGAs: FPGA Framework For Convolutional Neural Networks

Arxiv

10+阅读 · 2016年9月30日

VIP会员