图像恢复和视频恢复是计算机视觉中的经典问题。它们的目标是从观察到的损坏信号中恢复原始的视觉信号。由于噪声、模糊、下采样和压缩等各种因素,图像和传输过程中信息的不可避免的损失或损坏都会发生。这导致恢复问题的性质是不适定的。尽管通过深度神经网络在解决这个问题上取得了显著的进展,但在合成和实际情境中仍有进一步的改进空间。在这篇论文中,我们提出了一个实用的退化模型,一个图像恢复模型和两个视频恢复模型,从不同的方面提高恢复性能。
首先,我们提出了一个用于图像超分辨率的实用退化模型。我们首先分析了现有方法的缺点,并设计了一个由随机打乱的模糊、下采样和噪声退化组成的复杂但实用的退化模型。具体来说,模糊效应是通过使用各向同性和各向异性的高斯核进行的两次卷积来建模的。下采样是从一组插值技术中随机选择的。为了模拟噪声,我们在不同的级别添加了高斯噪声,采用了不同质量因子的JPEG压缩,并使用反向-正向的相机图像信号处理(ISP)管道模型和RAW图像噪声模型生成了处理过的相机传感器噪声。为了更高的复杂性,我们多次以随机打乱的方式使用上述退化。在合成和实际图像上的实验表明,所提出的退化模型可以显著提高现有方法的实用性。
其次,我们提出了一个基于transformer的图像恢复模型。通过将图像像素视为语言标记,我们使用注意机制根据它们的余弦相似性将像素特征细化为其相邻特征的加权总和。为了提高效率,图像被划分为不重叠的窗口,在每个窗口内独立进行注意。我们堆叠了多个带有残差连接的注意层,以提取深度图像特征,并为每个其他层移动图像以实现跨窗口连接。我们展示了所提出方法在三个代表性的恢复任务上的优越性:图像超分辨率、图像去噪和JPEG压缩伪影减少。
再次,我们将图像transformer模型扩展到视频领域。与单个图像恢复不同,视频恢复通常需要利用来自多个相邻但通常不对齐的视频帧的时间信息。因此,我们提出了一个带有并行帧预测和长范围时间依赖性建模能力的transformer模型,用于视频恢复。该模型由多个尺度组成,每个尺度都包括两种模块:时间互惠的自我关注和并行变形。前者模块将视频划分为小片段,在这些片段上应用互惠关注,用于联合运动估计、特征对齐和特征融合,而自我关注用于特征提取。为了实现跨片段交互,每个其他层都会移动视频序列。在第二个模块中,使用并行扭曲进一步从邻近帧中融合信息。
最后,我们通过整合循环设计的优势,改进了视频transformer模型。它在一个全局循环框架内并行处理局部相邻帧。具体来说,它将视频划分为多个片段,并使用先前推断的片段特征来估计后续的片段特征。在每个片段内,不同的帧特征被联合更新,带有隐式的特征聚合。在不同的片段之间,设计了用于片段到片段对齐的引导可变形注意,它预测了从整个推断片段中的多个相关位置,并通过注意机制聚合它们的特征。 总而言之,这篇论文为各种图像和视频恢复任务做出了贡献,在基准数据集和实际数据上都达到了最先进的性能。