Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

会员服务 ·

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

2017 年 12 月 3 日 全球人工智能

——免费加入AI技术专家社群>>

——日薪5k-10k招兼职AI讲师>>

－－招募1000名AI推广大使>>

12月1日，由andrea vedaldi等三位作者发表了一篇论文：《Deep Image Prior》。它让一个深度卷积网络去学习复制被破坏的图像（如，加入噪点的图像），发现这个网络会自动先学会如何重建图像。

例如，给定一幅被破坏的图像x，具体过程如下：

用随机参数初始化深度卷积网络f。
令f的输入为固定的随机编码z。
令f的目标为：输入z，输出x。以此训练f的参数。
注意选择合适的损失函数。例如对于降噪问题可关注整体的MSE，对于填充问题就应该只关心不需要填充的位置的MSE。
当训练很久之后，f可实现输出一模一样的x。
但如果在训练到一半时打断f，会发现它会输出一幅“修复过的x”。

这意味着，深度卷积网络先天就拥有一种能力：它会先学会x中“未被破坏的，符合自然规律的部分”，然后才会学会x中“被破坏的部分”。例如，它会先学会如何复制出一张没有噪点的x，然后才会学会复制出一张有噪点的x。

换而言之，深度卷积网络先天就了解自然的图像应该是怎样的。所以我们也可以理解为什么GAN的方法这么简单却效果这么好。这无疑来自于卷积的不变性，和逐层抽象的结构。个人认为这对于指导设计和测试网络架构很有意义。

Deep Image Prior的重要特点是，网络由始至终，仅使用了输入的被破坏过的图像做为训练。它没有看过任何其它图像，也没有看过正常的图像。但最终效果依然颇为不错。这说明自然图像的局部规律和自相似性确实很强。其实原理有点像NLM，不过相当于升级版。

请看图片例子。最左边是目标图像，它经过JPEG压缩，有很多压缩瑕疵。网络的目标是学会输出它。在100次迭代后，网络学会了输出很模糊的形体。在2400次迭代后，网络学会了输出一张清晰光滑的高质量图片。在50000次迭代后，网络才学会了输出原图。

再看图像由部分像素重建的例子，网络很擅长处理不断重复的纹理：

论文介绍

一、论文摘要

深度卷积网络已经成为图像生成和恢复的通用工具。一般来说，它们的出色性能归功于它们从大量样本图像中学习真实图像先验（image prior）的能力。而在本文中，相反的是，我们证明生成器网络的结构足以将大量的低等级图像统计先验捕获到任意学习中。为了做到这一点，我们展示了一个随机初始化的神经网络可以用作一个手动先验，并且可以在诸如去噪、超分辨率和修补等标准可逆问题上获取很好的性能表现。此外，同样的先验可以用来反演深度神经表征从而对其进行诊断，并且可以对基于“闪光—无闪光”输入对的图像进行恢复。

除了多样化的应用之外，我们的方法突出了标准生成器网络架构所捕获的归纳偏差（inductive bias）。它还弥补了两种通用的图像恢复方法之间的鸿沟：即使用深度卷积网络的基于学习的方法和基于手动图像先验（如自相似性）的无学习方法。

二、主要内容

在图像恢复问题中，目标是把受损图像x0恢复到原始图像x。这样的问题常常被描述为一个优化任务：

其中，E(x;x0)是数据项，R(x)是图像先验。数据项E(x; x0)通常很容易设计成用于各种各样的问题中，如超分辨率、去噪、修复，而图像先验R(x)是一个具有挑战性的问题。现在的趋势是通过使用大量的样本对卷积神经网络进行训练，从而用其捕获先验R(x)。

我们首先注意到，对于一个满射g:θ↦x，理论上下面的过程等同于（1）：

在实际应用中，g显著地改变了如何利用最优化方法搜索图像空间。除此之外，通过选择一个“好的”（可能是内射的）映射g，我们可以去除先验项。我们将g(θ)定义为fθ(z)，其中f是深度卷积神经网络，参数θ和z是一个固定的输入，从而生成公式：

在这里，网络fθ被随机初始化，输入z被噪声填充并被固定。换句话说，我们不是在图像空间中寻找答案，而是在神经网络的参数空间中寻找答案。我们强调，我们从不使用预训练网络或图像数据库。在恢复过程中只使用损坏的图像x0。

三、论文总结

在论文中，我们研究了卷积网络体系结构在当前基于ConvNet的图像恢复方法取得的成功中所扮演的角色。在这个过程中，我们提出了一种简单的方法，将随机初始化的ConvNets拟合到损坏的图像中从而作为修复问题的“瑞士刀（Swiss knife）”。使用这种“瑞士刀”不需要对这种降解（degradation）或预训练过程进行建模。无可否认的是，这种方法需要承载很大的计算量（对于512x512图像需要若干分钟的GPU计算）。

文章前部分所描述的：与当前两种修补方法所进行的比较。顶部：与Shepard网络进行的文本修复样本的比较。底部：与卷积稀疏编码（convolutional sparse coding）进行的修复50％缺失像素的比较。在这两种情况下，我们的方法在相关论文中使用的图像上表现较好。

从很多方面来说，我们的研究结果与一般的结论所有相悖，即认为最近基于深度学习的方法在成像技术中所取得的成功，主要归因于从使用手动先验到从数据中学习所有东西的转变。而事实证明，大部分的成功也可能是归因于从糟糕的手动先验转变为更好的手动先验（隐藏在可学习的深度卷积神经网络中）。而这也证明了开发新的深度学习架构的重要性。

论文：http://sites.skoltech.ru/app/data/uploads/sites/25/2017/11/deep_image_prior.pdf

主页：https://dmitryulyanov.github.io/deep_image_prior

Github：https://github.com/DmitryUlyanov/deep-image-prior

知乎：https://zhuanlan.zhihu.com/p/31595192