论文 | Twitter在超分辨率技术上取得新进展，能还原打码图片

2017 年 4 月 24 日 AI科技评论

AI科技评论按：受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起。别看它历史不长，影响力却不小，ICLR如今已成为深度学习领域一个至关重要的学术盛事。现在，AI科技评论已经亲临ICLR2017大会，为大家从法国带来最新鲜的一手资料，让你足不出户就能感受到全球顶尖ML大牛的雄韬武略。

图像超分辨率 (Super-Resolution, SR) 是一个不确定的逆向问题，相同的一张下采样（Downsampled）图像，进过图像超分辨率处理后，得出与原图相似的高分辨率图像却往往是不止一张，而是有很多张。当前大多数的单一图像进行超分辨率处理的方法是运用经验风险最小化 (Empirical Risk Minimisation, ERM) 原则，这时候一般情况下会出现单像素大小的均方误差 (Mean Squared Error, MSE) 损失。

但是，采用经验风险最小化原则处理得出的图像，像素之间的过度往往过度平滑，从而造成图像模糊，整体效果看起来与原图差别较大。比使用经验风险最小化原则更理想的方法，是使用最大后验概率( Maximum a Posteriori, MAP) 推断。在图像先验的前提下，得到高像素图像的可能性更高，因此得出的图像往往更接近原图。

Twitter 及哥本哈根的研究人员认为，在超分辨率处理过程中，直接对低像素图像进行最大后验概率估值是非常重要的，就像如果想要确保样图图像先验，就需要先构建一个模型一样地重要。想要进行摊销最大后验概率推断，从而直接计算出最大后验概率估值，本文在这一步引入的新方法是使用卷积神经网络。而为了确保网络输入低分辨率图像后，能始终如一地输出相应的高分辨率图像，研究人员创造性地引入了新型神经网络架构，在这个网络里，有效解决超分辨率的方法是，向仿射子空间进行投影。使用新型架构的结果显示，摊销最大后验概率推理，能减少到两个分布之间的最小化交叉熵，这个结果与生成模型经过训练后得到的结果相类似。如何对结果进行优化，论文里提出了三种方法：

（1）生成式对抗网络 (GAN)

（2）去噪指导超分辨率，从去噪过程中反向推导去噪的梯度估值，从而训练网络

（3）基线法，该方法使用最大似然训练图像先验

实验表明，使用真实图像数据，基于生成式对抗网络得到的图像最接近原图。最后，在变分自动编码器的举例中，成功建立了生成式对抗网络和摊销变异推断之间的联系。

论文结果展示：

四组经过超像素处理的青草质感对比图

顶行中 x 为输入模型的低分辨率图像， y 为高分辨率原图；剩余顶行各栏为模型根据相应算法输出的图像。底行为顶行相应图像的局部放大图。从局部放大图可知， AffGAN 得出的图像比 AffMSE 得出的图像效果更锐利更清晰。请注意，AffDAE 和 AffLL 都只能得出非常模糊的图像。图中第三列是未经仿射投影训练的模型输出的图像，这个模型采用基线法，例图已经是该模型得出最佳上采样效果的图像。

四组经过超像素处理的明星肖像

x 为输入模型的低分辨率图像， y 为高分辨率原图，其余为各算法的输出图像。 AffGAN 和 SoftGAN 输出的图像都比 MSE 输出的图像更锐利更清晰。与 SoftGAN 输出的图像相比，AffGAN 输出的图像稍微锐利一些，高频噪声（噪点）却更多。

原图采集自 ImageNET ，四组分辨率从32×32到128×128不等的图像，使用 AffGAN 进行超分辨率处理，输出图像如上图所示。

最上面一行是输出图像，中间一行是原图，最下面一行是输入模型的图像。总体来看， AffGAN 输出的图像比较接近原图，但和原图的区别还是显而易见的。有趣的是，第三列中，蛇身几乎和水融为一体，这显然是不合理的，但考虑到低分辨率输入图像，输出图像已经逼真了很多。

ICLR 委员会最终决定

评价：所有审评者都认为，这是一篇高质量、值得刊登出来的原创论文

决定：口头报告 (Oral)

评论1：这是一篇非常好的论文。论文里有许多新颖的想法，文笔非常好，很好地执行了设计的实验，也得出了优异的实验结果。

在第3-3.1节中的分析，看到把 DAE 应用于3.3节的内容，据我所知这个做法是非常新颖的，很有科研价值。图1（第1节）所表达的内容非常明确。5.6节提到争议非常有趣，如果认真探究这些争议，很有可能引出新的研究方向，关于“生成可信样本 (producing plausible samples) ”问题，如果能得出确切的数学，意义是非常重大的，然而现在这个问题还远未解决。

次要评论/问题：

·请问是否与分段化或者结构化预测中使用的架构进行过比较？因为利用反向 KL 来训练条件单峰分布，使用平均场 CRF 这个方法时，您自然而然地需要选择一种模式，这种模式得出的图像，就像您之前得出的图像那样锐利。例如连续变量这样的问题，可以像 pixel CNN 那样通过离散化来改善。另一个优点是，这些架构非常稳定，可以用比论文里面还要大的模型进行训练。

·第3页第二项 employs 应用单数 employ （此处在原文已改正）。

评论2：新颖的方法论

打分结果：8：入选论文的 Top 50％，毫无疑问获得入选

评论内容：这篇论文提出了一个解决超分辨率问题的新框架 ——摊销最大后验概率推断，并且为了确保输入低分辨率图像能稳定输出相应的高分辨率图像，研究人员创新性地加入了一个预先学习的仿射投影层。此外，论文还提出了三种解决交叉熵最小化问题的方法。总的来说，这是一篇很棒的论文，然而我还是有以下几个问题：

1.提议的摊销最大后验概率推理，与以往的超分辨率解决方法都不同。结合生成式对抗网络，该框架可以获得接近原图的优异图像结果。和另一种基于生成式对抗网络的超分辨率解决方法——基于生成式对抗网络，图像逼真的单一图像超分辨率——相比，这种新方法对解决图像超分辨率问题的最先进技术的贡献是什么？

2.使用仿射投影架构，该模型不需要使用任何高分辨率和低分辨率图像组进行训练。然而这个架构的限制是，当训练仿射投影层时，仍然需要相应的高分辨率和低分辨率图像组，这是否意味着只是把这个训练过程转化为对仿射投影的训练？

3.论文展示了对多种源图像进行超分辨处理后的图像，包括使用 ImageNet 图像，以及其他来源图像。为了方便与以前方法得出的图像进行比较，是否可以提供利用超分辨率常规测试数据集5、常规测试数据集14或者 BSD100 而得出的图像？

4.可以看到本文示例的输出图像的分辨率限制在128×128，然而进行超分辨率处理的图像，任意大小都有，这时新框架能否在更大尺寸的图像上出色表现呢？

5.正常的生成式对抗网络有一个噪声项，当学习一个分布时，噪声项能更清晰地展现学习情况。有尝试过使用噪音矢量吗？

总体而言，本文为解决超分辨率问题提供了一个具有扎实理论分析的新框架。虽然论文里的想法很新颖，研究人员也探索了很多方法，但仍然遗漏了某些问题的必要性，还需要进行更多实验。这项工作将大大地启发同领域的其他研究人员。

评审

评审1：

打分结果：9：入选论文的 Top15％，强烈建议该论文入选

评审情况：为迟迟未进行评审献上真诚的歉意。

这篇论文认为将超分辨率问题看作摊销最大后验概率估值。为了确保低分辨率图像输入能稳定输出相应高分辨率图像，研究人员提出了投影方案，并且通过实验验证，得出的图像结果确实比其他方法更佳。还进一步测试为了解决方程9中产生的交叉熵问题而提出的三种解决方法。

总结：这是一篇非常好的论文，文笔很好，问题的呈现和解决思路都表达得很清晰，实验结果也足够多。从文章可以看出，所用的 toy example 经过精心挑选，而且应用范围很接近现实生活。根据我的理解，3.2、3.3、3.4节对超分辨率领域做出了新颖的贡献，但某些生成式对抗网络的训练变体，已经在其他地方出现过（另见讨论）。这篇论文基于生成式对抗网络模型的训练，得到了最具视觉吸引力的成果，这个发现表明了在这一领域，未来还可以取得进一步研究成果。我认为本文将与在未来超分辨率领域取得的进展息息相关。

此前应该再次通读手稿，论文存在少许需要修改的拼写错误。

评审2：有趣的论文

打分结果：7：好论文，入选

评审情况：本文提出了摊销最大后验概率估值方法来解决超分辨率问题。正是为了解决这个问题，论文通过学习神经网络，在网络中学习向仿射子空间进行投射，来保证输入低分辨率图像能稳定输出相应的高分辨率图像，从中提出了以下几种解决方法：生成式对抗网络，噪声辅助优化和密度辅助优化。

在几个数据集上得到的结果很好地证明这个方法是可行的。

虽然我觉得论文还可以继续打磨，文中展示的问题也还可以表述地更加透彻，但我现在就非常喜欢这篇论文了。看论文时，有时候很难跟得上文章的思维，而且考虑到某些问题的复杂性，如果把问题剖析得更简单一点，论文会更加完美。另外，我非常乐意看到更多关于结果和网络的分析 -——它们学到了什么功能？

评审3：Instance noise

评论内容：Salimans等人2016年在论文（https://github.com/openai/improved-gan）中，关于改进生成式对抗网络的补充部分，尽管描述地非常模糊，但他们也在输入端的鉴频器中加入了高斯噪声。而这篇论文提供了更多关于 Instance noise 为什么也能影响输出图像质量的理论，我认为这是一个实实在在的贡献。

via openreview, AI科技评论编译

报名 |【2017 AI 最佳雇主】榜单