我们提出了一种新的视频神经表示(NeRV),它在神经网络中对视频进行编码。与传统的将视频表示为帧序列不同,我们将视频表示为以帧索引为输入的神经网络。给定帧索引,NeRV输出相应的RGB图像。NeRV中的视频编码只是简单地将神经网络拟合到视频帧上,解码过程是一个简单的前馈操作。作为一种图像隐式表示,NeRV输出整幅图像,比像素隐式表示效率高,编码速度提高了25倍至70倍,解码速度提高了38倍至132倍,同时获得了更好的视频质量。有了这样的表示,我们可以将视频视为神经网络,从而简化了几个与视频相关的任务。例如,传统的视频压缩方法受到为任务专门设计的长而复杂的流水线的限制。相比之下,使用NeRV,我们可以使用任何神经网络压缩方法作为视频压缩的代理,并达到与传统的基于帧的视频压缩方法(H.264, HEVC等)相当的性能。除了压缩外,我们还展示了NeRV在视频去噪中的推广作用。源代码和预先训练的模型可以在https://github.com/haochen-rye/NeRV.git上找到。
https://www.zhuanzhi.ai/paper/a0746da699bf2b7ae563a42e54634014