加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
心心念念的文章<NTIRE2020-RWSR冠军方案>终于发出来了。该文是南京大学&腾讯优图提出的一种图像超分方案,它在NTIRE2020-RWSR两个赛道获得了冠军。先看个效果图,有没有觉得这个效果是真的非常棒!
基于深度学习的图像超分方案在合成数据集取得了令人振奋的效果,然而在真实世界应用时却出现了性能的急剧下降,主要原因:训练数据采用双三次插值合成。为解决上述问题,首先,作者提出一种新的数据制作方案:统计模糊核与真实噪声分布并用于制作训练数据对。所提方案可以使得LR与真实世界图像处于同域,进而将提升图像超分的性能。然后,作者提出一种真实世界超分模型以获得更好的感知效果。作者在合成数据与真实数据上验证了所提方案的SOTA性能(更低的噪声、更好的视觉质量),所提方案在NTIRE2020-RWSR两个赛道夺冠。
作者首先分析了不同核在下采样图像上的影响性分析。假设原始真实图像域 ,清晰的HR域为 ,不同的模糊核对于下采样图像的影响非常大,双三次下采样核一种理想的核(它尽可能的保持 与 具有相同的信息)。然而这些下采样后图像已转换到另外一个域 。在 数据对上训练的模型在 上性能表达极好,然而在 上的表现却差强人意。下采样图像的另外一个问题是:几乎不含噪声。而真实世界图像往往包含大量的噪声,也就是说:仅仅估计模糊核难以精确模拟降质过程。
作者通过上述分析并结合已有超分方案在不同数据上的效果差异得出这样一个结论:“真实世界超分的关键问题在于如何引入精确的降质模型以确保生成的LR图像与原始图像具有同域属性(比如噪声分布、模糊等)”。为解决前述所提到的问题,作者提出了一种新颖的数据制作方案。
首先介绍一下适用于超分的真实降质过程,它可以描述为:
其中, 分别表示模糊核与噪声。在实际场景, 均未知的。为更精确的估计降质模型,我们需要从图像中估计模糊核与噪声。一旦得到这些模糊核与噪声,我们就可以利用其构建一个降质池用于对清晰HR图像降质生成LR图像。该数据制作过程可以描述如下:
作者采用了类似KernelGAN的方式从真实图像中估计模糊核,KernelGAN的生成器是一种线性模型且不包含任何激活层,因此它的参数可以组合为一个固定核,该估计核满足如下约束:
其中 表示由核k得到的下采样LR图像, 表示由理想核得到的下采样图像。第二项则是正则项约束,第三项是边界惩罚项,最后一项通过判别方式确保源域信息一致性。
前面也提到了噪声也是真实世界图像复原应用中非常关键的一个环节,那么如何将噪声注入呢?作者这里提出一种非常容易理解的方案,容我细细道来。
由于LR的获取过程中,图像的高频信息被丢失了,同时也会导致噪声分布发生了变化。为使最终得到的LR图像与源域 中的图像具有相似的噪声分布,作者提出直接从源域 数据中收集噪声。作者指定了这样一个规则:如果某个块的方差小于设定的阈值,则将其纳入到降质池中。这个规则可以描述为:
其中, 分别表示方差函数与预设最大方差。
在得到图像噪声块后,剩下的就是制作带有噪声的LR图像了,这个就简单了。
在超分模型方面,作者并未进行任何创新,它直接采用ESRGAN作为生成器。在损失函数方面,作者选用下面的损失组合:
在损失方面,它与ESRGAN存在些微区别,主要是判别器:采用了块判别器而非ESRGAN中的VGG。块判别器确保了生成器不会产生类似ESRGAN的伪影问题。
训练数据1: DF2K,它由DIV2K和FlickrK构成,包含3450图像。这些图像将被添加高斯噪声以模拟传感器噪声。对应的验证数据包含100图像,用于进行度量指标统计。
训练数据2:DPED,它包含由iphone3拍摄5614图像,且未经处理的真实图像,更具挑战性:包含噪声、模型、低光以及其他低质问题。对应的验证数据包含100图像,由于无对应GT,它主要用于提供视觉对比。
评价准则:PSNR、SSIM、LPIPS等。
作者首先在DF2K数据集上对所提方案与其他超分方法进行了对比,对标方法包含EDSR、ESRGAN、ZSSR、K-ZSSR等,评价准则主要关注LPIPS。指标与视觉效果对比如下,可以看到:
注:为更好的说明作者生成的LR图像,笔者从DIV2K-val数据集中挑出了同一张图。可以下图的对比可以看到:作者用来做测试的LR图像已经被注入了噪声。而对标的EDSR、ESRGAN应该并未在新构建的数据集上进行finetune。
由于该文所提方案更关心的是它在真实图像超分方面的性能(也就是DF2K上的实验只是“小打小闹”,哈哈),因此作者进一步在DPED数据集上进行了评估。视觉效果见下图,相比其他超分方案,所提方法生成的结果具有更少的噪声和伪影,这也意味着噪声注入方式得到的噪声估计与真实噪声分布非常接近。
该文所提方案取得了NTIRE2020-RWSR竞赛两个赛道的冠军。赛道1为合成数据;赛道2为智能手机拍摄的真实数据。相关结果如下所示。注:赛道1采用的评估指标为MOS,赛道2采用的指标为MOR。所提方法在两个赛道以极大优势夺冠,棒棒哒!
最后附上作者进行的一些消融实验结果,如下所示。
从上述对比主要可以得出这样几个结论:
总而言之,作者提出一种新颖的数据制作方案:它确保了生成了LR图像具有与源域图像相近的属性(比如噪声分布)。与此同时,结合GAN方式的模型训练使得最终的生成器可以生成具有更佳视觉效果的图像,在真实数据上具有更低的噪声、更佳的视觉效果。所提方案还在NTIRE2020-RWSR竞赛的两个赛道夺冠。
通篇看下来,个人感觉这篇论文最关键的一点在于:真实噪声的获取与注入。
推荐阅读
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取最新CV干货
觉得有用麻烦给个在看啦~