【ICCV2021】内容感知特征调制的压缩视频传输

互联网视频在过去几年发生了爆发式增长，这给视频传输基础设施带来了巨大的负担。网络视频传输系统的质量很大程度上取决于网络带宽。受客户端 / 服务器日益增长的计算能力和深度学习的最新进展的启发，一些工作提出将深度神经网络 (DNN) 应用于视频传输系统的工作，以提高视频传输质量。这些 DNN 的方法将一整个视频平均分成一些视频段，然后传输低分辨率的视频段和其对应的 context-aware 模型到客户端，客户端用这些训练好的模型推理对应的低分辨率视频段。通过这种方式，可以在有限的互联网带宽下获得更好的用户体验质量 (QoE)。其中，传输一段长视频需要同时传输多个超分辨率模型。

近日，来自北京邮电大学和英特尔中国研究院的研究者首先探索了不同视频段所对应的不同模型间的关系，然后设计了一种引入内容感知特征调制（Content-aware Feature Modulation，CaFM）模块的联合训练框架，用来压缩视频传输中所需传输的模型大小。该研究的方法让每一个视频段只需传输原模型参数量的 1%，同时还达到了更好的超分效果。该研究进行了大量的实验在多种超分辨率 backbone、视频时长和超分缩放因子上展现了该方法的优势和通用性。另外，该方法也可以被看作是一种新的视频编解码方式。在相同的带宽压缩下，该方法的性能（PSNR）优于商用的 H.264 和 H.265，体现了在行业应用中的潜能。

论文链接：http://arxiv.org/abs/2108.08202

GitHub 地址：https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

与当前单图像超分辨率 (SISR)和视频超分辨率 (VSR)的方法相比，内容感知 DNN 利用神经网络的过拟合特性和训练策略来实现更高的性能。具体来说，首先将一个视频分成几段，然后为每段视频训练一个单独的 DNN。低分辨率视频段和对应的模型通过网络传输给客户端。不同的 backbone 都可以作为每个视频段的模型。与 WebRTC 等商业视频传输技术相比，这种基于 DNN 的视频传输系统取得了更好的性能。

尽管将 DNN 应用于视频传输很有前景，但现有方法仍然存在一些局限性。一个主要的限制是它们需要为每个视频段训练一个 DNN，从而导致一个长视频有大量单独的模型。这为实际的视频传输系统带来了额外的存储和带宽成本。在本文中，研究者首先仔细研究了不同视频段的模型之间的关系。尽管这些模型在不同的视频段上实现了过拟合，但该研究观察到它们的特征图之间存在线性关系，并且可以通过内容感知特征调制（CaFM）模块进行建模。这促使研究者设计了一种方法，使得模型可以共享大部分参数并仅为每个视频段保留私有的 CaFM 层。然而，与单独训练的模型相比，直接微调私有参数无法获得有竞争力的性能。因此，研究者进一步设计了一个巧妙的联合训练框架，该框架同时训练所有视频段的共享参数和私有参数。通过这种方式，与单独训练的多个模型相比，该方法可以获得相对更好的性能。

该研究的主要贡献包括：