现有的神经视频压缩方法大多采用预测编码框架,该框架首先生成预测帧,然后将其残差与当前帧进行编码。然而,在压缩比方面,预测编码只是一种次优方案,因为它使用简单的减法操作来去除帧间的冗余。在本文中,我们提出了一个深度上下文视频压缩框架,以实现从预测编码到条件编码的范式转换。特别是,我们试图回答以下问题:如何定义、使用和学习条件下的深度视频压缩框架。为了挖掘条件编码的潜力,我们提出使用特征域上下文作为条件。这使我们能够利用高维上下文为编码器和解码器携带丰富的信息,这有助于重建高频内容以获得更高的视频质量。我们的框架也是可扩展的,条件可以灵活设计。实验表明,我们的方法可以显著优于以往的先进的(SOTA)深度视频压缩方法。与x265使用非常慢的预设相比,1080P标准测试视频可以节省26.0%的比特率。
https://www.zhuanzhi.ai/paper/dc8a3c4de86f67bd7da9cc282e6c53bb