从网络设计到实际应用，深度学习图像超分辨率综述

2019 年 2 月 24 日 机器之心

选自arXiv

作者：Zhihao Wang、Jian Chen、Steven C.H. Hoi

机器之心编译

参与：王淑婷、张倩

图像超分辨率（SR）研究已经利用深度学习技术取得了重大进展，本文旨在系统性地综述这些进展。作者将 SR 研究分为三大类：监督 SR、无监督 SR 以及特定领域的 SR。此外，本文还介绍了这一领域常用的公共开源基准数据集和性能评估指标，并指出了未来的几个方向以及一些待解决的问题。

图像超分辨率（SR）是指从低分辨率（LR）图像中恢复高分辨率（HR）图像的过程，是计算机视觉和图像处理中一种重要的图像处理技术。它在现实世界中有着广泛的应用，如医学成像、监控和安全等。除了改善图像的感知质量，它还有助于改善其它计算机视觉任务。总的来说，由于单个 LR 图像通常对应多个 HR 图像，因此这个问题比较具有挑战性。以往的文献中提到了多种经典的 SR 方法，包括基于预测的方法、基于边缘的方法、统计方法、基于 patch 的方法和稀疏表征方法等。

随着近年来深度学习技术的快速发展，研究人员积极地探索基于深度学习的 SR 模型，且该模型经常在各种 SR 基准测试上达到当前最佳水平。各种深度学习方法被用来解决 SR 问题，包括早期基于卷积神经网络的方法和近期使用生成对抗网络的 SR 方法。一般来说，使用深度学习技术的 SR 算法在以下主要方面有所不同：不同的网络架构、不同的损失函数、不同的学习原则和策略等。

本文全面综述了图像超分辨率使用深度学习所取得的最新进展。虽然目前已有的文献中有对超分辨率的概述，但本文的概括有所不同：本文的重点在于基于深度学习的 SR 技术，而早期的概述重点在于传统的 SR 算法，或者有些概述是基于完全参考指标或人类视觉感知来提供定量评估。与现有的概述不同，本文以系统和全面的方式采取了一种基于深度学习的独特视角来回顾 SR 技术的最新进展。

本文主要贡献如下：

全面回顾了基于深度学习的图像超分辨率技术，包括问题设置、基准数据集、性能度量、一系列基于深度学习的 SR 方法、特定领域的 SR 应用等。
以分层和结构化的方式系统回顾了基于深度学习的 SR 技术的最新进展，总结了有效 SR 方案每个部分的优势和局限性。
讨论了当前的挑战和开放性问题，确认了新的发展趋势和未来方向，为该社区提供了见解和指导。

接下来本文将描述基于深度学习的图像超分辨率最新进展的各个方面。图 1 以分级结构的方式列出了本文的概况。第二部分讨论了问题定义并回顾了主流的数据集和评估指标。第三部分模块化地分析了监督超分辨率的主要组成部分。第四部分简要介绍了无监督超分辨率方法。第五部分介绍了特定领域流行的一些 SR 应用，第六部分讨论了 SR 技术的未来发展方向和开放性问题。

图 1：本综述的结构图

论文：Deep Learning for Image Super-resolution: A Survey

论文地址：https://arxiv.org/abs/1902.06068

摘要：图像超分辨率（SR）是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术。近几年来，图像超分辨率研究已经利用深度学习技术取得了重大进展。文本旨在系统性综述图像超分辨率技术利用深度学习技术所取得的最新进展。总体来看，现有的 SR 技术研究大体可以分为三大类：监督 SR、无监督 SR 以及特定领域的 SR。除此之外，本文还介绍了其他一些重要内容，如公共开源基准数据集和性能评估指标。最后，本文还指出了未来的几个方向以及一些待解决的问题。

超分辨率研究数据集

目前有很多用于图像超分辨率研究的数据集，它们在图像数量、质量、分辨率、多样性等方面存在很大的差异。其中一些数据集提供 LR-HR 图像对，而有些仅提供 HR 图像，其中的 LR 图像通常由 MATLAB 中默认设置的 imresize 函数获得。表 1 列出了 SR 社区常用的一些图像数据集，详细地写明了其包含的 HR 图像数量、平均分辨率、像素平均数、图像格式和分类关键词等。

表 1：用于超分辨率基准的公共图像数据集

监督超分辨率

已有研究人员提出了很多利用深度学习的超分辨率模型。这些模型主要关注监督超分辨率，即同时利用 LR 图像和相对应的 ground truth HR 图像进行训练。尽管这些模型之间的差别非常大，但它们本质上是一套组件的组合，如模型框架、上采样方法、网络设计、学习策略等。从这个角度来看，研究人员组合了这些组件来构建一个整合的 SR 模型，以实现特定目的。本章将着重对基本组件进行模块化分析（见图 1），而不是单独介绍每个模型并总结它们的优缺点。

图 2：基于深度学习的超分辨率模型框架。这些四边形显示了上/下采样运算（取决于它们的方向）。灰色四边形表示预定义的上采样运算，绿色和黄色四边形分别表示可学习的上采样或下采样层。蓝色框表示卷积层，虚线框内的部分表示可以堆叠在框架内的模块。

图 3：网络设计策略

无监督超分辨率

现有的超分辨率研究重点是监督学习，即利用 LR-HR 图像对学习 LR 到 HR 图像的映射。然而，由于获取同一个场景的不同分辨率图像难度较大，SR 数据集中的 LR 图像往往是通过对 HR 图像进行预定义的降级来获得的。因此，在这些数据集上训练的 SR 模型更有可能学习预定义降级的可逆流程。为了避免预定义降级带来的不良影响，研究人员越来越关注无监督超分辨率，用于训练的图像只有 HR 或 LR 的非配对图像，因此得到的模型更擅长解决实际应用中的 SR 问题。

特定领域的应用

1、深度图超分辨率

深度图记录了场景中视点和目标之间的距离，深度信息在姿态估计 [150], [151], [152]、语义分割 [153], [154] 等许多任务中发挥着重要作用。然而，由于生产力和成本方面的限制，由深度传感器生成的深度图通常分辨率较低，并饱受噪声、量化、缺失值等方面的降级影响。为了提高深度图的空间分辨率，研究人员引入了超分辨率。

2、人脸图像超分辨率

人脸图像超分辨率（又名 face hallucination，FH）通常有助于完成其它与人脸相关的任务 [6], [72], [73], [162]。与一般图像相比，人脸图像拥有更多与人脸相关的结构化信息，因此将人脸先验知识整合到 FH 中是一种非常流行且颇有前景的方法。

3、超光谱图像超分辨率

与全色图像（panchromatic image，PAN）相比，超光谱图像（HSI）包含数百个波段的高光谱图像，能够提供丰富的光谱特征，帮助完成许多视觉任务 [174], [175], [176], [177]。然而，由于硬件限制，不仅是搜集高质量 HSI 比搜集 PAN 难度更大，搜集到的 HSI 分辨率也要更低。因此，该领域引入了超分辨率，研究人员往往将 HR PAN 与 LR HSI 相结合来预测 HR HSI。

4、视频超分辨率

在视频超分辨率中，多个帧可以提供更多的场景信息，该领域不仅有帧内空间依赖，还有帧间时间依赖（如运动、亮度和颜色变化）。因此，现有研究主要关注更好地利用时空依赖，包括明确的运动补偿（如光流算法、基于学习的方法）和循环方法等。

5、其它应用

基于深度学习的超分辨率也被应用到其它特定领域的应用中，而且表现出色。尤其是，RACNN[197] 利用 SR 模型增强了用于细粒度分类的 LR 图像细节的可辨性。类似地，感知 GAN[198] 通过超分辨小目标的表征解决了小目标检测问题，实现了与大目标相似的特征，检测更具可辨性。FSR-GAN[199] 超分辨化了特征空间而非像素空间中的小图像，将质量较差的原始特征转换成了可辨性更高的特征，这对图像检索非常有利。此外，Dai 等人 [7] 验证了 SR 技术在若干视觉应用中的有效性和有用性，包括边缘检测、语义分割、数字和场景识别。Huang 等人 [200] 开发了专门用于超分辨率遥感图像的 RS-DRL。Jeon 等人 [201] 利用立体图像中的视差先验来重建配准中具有亚像素准确率的 HR 图像。

总结当下，放眼未来

1、网络设计

良好的网络设计不仅决定了具有很高性能上限的假设空间，还有助于在没有过多空间和计算冗余的情况下高效地学习数据表征。下面我们将介绍一些有前景的网络改进方向：

结合局部信息和全局信息
结合低级和高级信息
针对特定上下文的注意力
轻量级架构
上采样层

2、学习策略

除了良好的假设空间，鲁棒的学习策略也是实现令人满意的结果所必需的。下面我们将介绍一些不错的学习策略。

损失函数。现有的损失函数可视作在 LR/HR/SR 图像之间建立约束，并根据这些约束是否得到满足来指导优化。实际上，这些损失函数通常是加权组合的，对 SR 来说最佳的损失函数仍然未明。因此，最有前景的方向之一是探索这些图像之间的潜在关联并寻求更精确的损失函数。

归一化。虽然 BN 被广泛用于视觉任务中，大大加快了训练并提高了模型性能，但它对于超分辨率技术来说仍是次优策略。因此需要研究其它有效的 SR 归一化技术。

3、评估指标

评估指标是机器学习最基本的组成部分之一。如果指标不能准确测量模型性能，研究者就很难验证其进步。超分辨率图像的评估指标同样面临这样的挑战，因此需要进行更多的探索。

更精确的指标。超分辨率图像中使用最广泛的指标是 PSNR 和 SSIM。然而，PSNR 往往会导致过度平滑，且结果在几乎无法区分的图像之间差异很大。SSIM 在亮度、对比度和结构方面进行评估，但仍然无法准确测量图像的感知质量。此外，MOS 最接近人类视觉反应，但需要大量人力和精力，且不可复制。因此，迫切需要更精确的指标来评估重建图像的质量。

盲 IQA 方法。如今，用于 SR 的大多数指标都是完全参考（all-reference）方法，即假设我们已将 LR-HR 图像以完美的质量配对。但此类数据集难以获取，因为用于评估的数据集通常是通过人工降级获得的。在这种情况下，我们对其执行评估的任务实际上是预定义降级的逆过程。因此，开发盲 IQA 方法也有很大的需求。

4、无监督超分辨率

如第四部分所述，在相同的场景中收集不同分辨率的图像比较难，因此双三插值被广泛用于创建 SR 数据集。但是，在这些数据集上训练的 SR 模型可能仅学习了预定义降级的可逆过程。因此，如何执行无监督超分辨率（即在没有配对 LR-HR 图像的数据集上训练）是未来发展的一个可行方向。

5、实际应用方向

图像超分辨率在实际应用中受到很大限制，如遭遇未知的降级因子，丢失配对 LR-HR 图像等。以下是 SR 在实际应用中的一些发展方向：

处理多种降级问题。实际应用中的图像往往会遭遇未知的降级问题，如噪声增多、压缩人为问题和模糊等。因此，在人为降级的数据集上训练的模型在现实应用中往往表现不佳。研究人员已经提出了一些方法来解决这一问题，但这些方法有一些先天缺陷，如训练难度大、过于完美的假设。这一问题亟待解决。

特定领域的应用。超分辨率不仅可以直接应用于特定领域的数据和场景，还对其它视觉任务有很大帮助。因此，将 SR 应用于更多的特定领域也是一个有前景的方向，如视频监控、人脸识别、目标跟踪、医学成像、场景渲染等。

多尺度超分辨率。多数现有 SR 模型以固定的比例因子来执行 SR。但在实际应用中我们经常要以任意比例因子来执行官 SR，因此，开发多尺度超分辨率的单个模型也是一个潜在的发展方向。