计算机视觉领域的一个根本挑战在于准确建模/表征图像分布。例如,在高级视觉任务中,潜在空间中更好的图像表示可以显著增强下游任务(如图像分类和分割)的性能。同样,在图像恢复中,更准确的干净图像分布模型(以退化图像为条件)可以产生具有更好感知质量的结果。然而,由于图像及其潜在代码的高维度性,建模这些分布极具挑战性。
在相对平行的研究方向上,深度生成模型取得了显著进展,旨在隐式或显式地建模图像分布。这些模型为处理复杂分布提供了强大的工具。然而,由于不同的领域先验和任务公式,直接应用这些模型并不可行,且会导致次优性能。如何无缝且有效地将生成模型集成到图像恢复和表示任务中,并结合任务特定的先验知识,仍然是一个有待进一步探索的开放领域。
本论文重点探索深度生成模型在图像恢复和表示任务中的潜力,涵盖从高级视觉任务(如图像分类)到低级视觉任务(如图像压缩和恢复)。首先,针对图像分类任务,我们引入了一种新颖的变分推理框架,以获得具有增强泛化能力的潜在表示。我们使用生成对抗网络隐式建模给定潜在代码的图像后验分布,以从提供的训练数据中解耦领域不变特征。随后,我们探索了显式建模后验分布的可能性。利用归一化流(Normalizing Flow)的能力——一种能够获得给定样本确切似然的生成模型——我们将其应用于低光图像增强(LLIE)任务,并考虑其归纳偏差。尽管基于流的模型取得了有希望的结果,但其性能受到归一化流设计中的固有限制的约束。因此,我们深入研究了将LLIE任务的原始图像空间先验知识无缝集成到扩散框架中,以克服模型设计中的局限性。尽管我们的基于扩散的解决方案取得了有希望的结果,但它仍存在两个主要局限性:首先,尽管在原始空间中增强具有独特优势,但原始图像的显著存储开销限制了其应用。因此,在接下来的两项工作中,我们探索了通过准确建模图像的潜在分布并利用自回归模型的能力来进一步提高编码效率的联合压缩方法。其次,尽管所提出的工作将推理路径从数十或数百步缩短到仅三步(与常用的扩散模型相比),但仍需要迭代评估并导致推理开销。在最后一项工作中,我们提出了一种加速策略,结合蒸馏策略和一种新颖的自一致性损失。我们在超分辨率任务中仅通过一步推理实现了最先进的性能,其中条件分布相对更复杂。 总的来说,本论文做出了三项主要贡献。首先,我们展示了基于生成的图像恢复和表示方法的有效性和独特优势。其次,我们提出了多种方法,将深度生成模型的能力与图像恢复和表示任务的领域知识无缝结合。为了验证这些方法的有效性,我们在多个数据集上进行了广泛的实验。实验结果明确表明,我们的方法优于之前的最先进模型。本论文提出的努力和成就不仅强调了图像恢复和表示技术的实际能力,还为未来的研究和行业应用提供了基础支持。