视频超分旨在对低分辨率视频提升分辨率的同时对细节进行增强(可能还会附带噪声抑制、压缩伪影移除亦或取出运动模糊)。现有的视频超分方案大多在合成数据上进行训练,这种简单的退化机制在面对真实场景的复杂退化时就会出现严重的性能下降。因此,如何将学术界的视频超分方案应用到真实场景,或者缩小两者之间的性能差异就更为值得进行探索与研究 。
为缓解上述问题,本文采用多个相机(iPhone 11 Pro Max)采用成对LR-HR视频序列构建了一个Real-world Video Super-Resolution(RealVSR) 。由于LR-HR视频对是通过两个相机采集得到,两者之间不可避免会存在某种程度的不对齐、亮度/色彩差异。为更鲁棒的进行VSR模型训练、重建更多细节,我们将LR-HR视频转换为YCbCr颜色空间,将亮度通道分解为拉普拉斯金字塔,针对不同的成分实施不同的损失函数 。
实验结果表明:相比合成数据训练的模型,在RealVSR数据集上训练的VSR模型在真实场景数据具有更好的视觉质量,边缘更锐利 。此外,这些模型表现出了非常好了跨相机泛化性能。下图给出了合成数据训练模型与RealVSR训练模型的效果对比,很明显:在RealVSR上训练的视频超分模型在真实数据上重建细节更为清晰。