互联网视频在过去几年发生了爆发式增长,这给视频传输基础设施带来了巨大的负担。网络视频传输系统的质量很大程度上取决于网络带宽。受客户端 / 服务器日益增长的计算能力和深度学习的最新进展的启发,一些工作提出将深度神经网络 (DNN) 应用于视频传输系统的工作,以提高视频传输质量。这些 DNN 的方法将一整个视频平均分成一些视频段,然后传输低分辨率的视频段和其对应的 context-aware 模型到客户端,客户端用这些训练好的模型推理对应的低分辨率视频段。通过这种方式,可以在有限的互联网带宽下获得更好的用户体验质量 (QoE)。其中,传输一段长视频需要同时传输多个超分辨率模型。

近日,来自北京邮电大学和英特尔中国研究院的研究者首先探索了不同视频段所对应的不同模型间的关系,然后设计了一种引入内容感知特征调制(Content-aware Feature Modulation,CaFM)模块的联合训练框架,用来压缩视频传输中所需传输的模型大小。该研究的方法让每一个视频段只需传输原模型参数量的 1%,同时还达到了更好的超分效果。该研究进行了大量的实验在多种超分辨率 backbone、视频时长和超分缩放因子上展现了该方法的优势和通用性。另外,该方法也可以被看作是一种新的视频编解码方式。在相同的带宽压缩下,该方法的性能(PSNR)优于商用的 H.264 和 H.265,体现了在行业应用中的潜能。

论文链接:http://arxiv.org/abs/2108.08202

GitHub 地址:https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

与当前单图像超分辨率 (SISR)和视频超分辨率 (VSR)的方法相比,内容感知 DNN 利用神经网络的过拟合特性和训练策略来实现更高的性能。具体来说,首先将一个视频分成几段,然后为每段视频训练一个单独的 DNN。低分辨率视频段和对应的模型通过网络传输给客户端。不同的 backbone 都可以作为每个视频段的模型。与 WebRTC 等商业视频传输技术相比,这种基于 DNN 的视频传输系统取得了更好的性能。

尽管将 DNN 应用于视频传输很有前景,但现有方法仍然存在一些局限性。一个主要的限制是它们需要为每个视频段训练一个 DNN,从而导致一个长视频有大量单独的模型。这为实际的视频传输系统带来了额外的存储和带宽成本。在本文中,研究者首先仔细研究了不同视频段的模型之间的关系。尽管这些模型在不同的视频段上实现了过拟合,但该研究观察到它们的特征图之间存在线性关系,并且可以通过内容感知特征调制(CaFM)模块进行建模。这促使研究者设计了一种方法,使得模型可以共享大部分参数并仅为每个视频段保留私有的 CaFM 层。然而,与单独训练的模型相比,直接微调私有参数无法获得有竞争力的性能。因此,研究者进一步设计了一个巧妙的联合训练框架,该框架同时训练所有视频段的共享参数和私有参数。通过这种方式,与单独训练的多个模型相比,该方法可以获得相对更好的性能。

该研究的主要贡献包括:

  • 提出了一种新颖的内容感知特征调制(CaFM)模块的联合训练框架,用于网络间的视频传输;
  • 对各种超分辨率 backbone、视频时间长度和缩放因子进行了广泛的实验,证明了该方法的优势和通用性;
  • 在相同的带宽压缩下,与商业 H.264 和 H.265 标准进行比较,由于过度拟合的特性,该方法展示了更有潜力的结果。
成为VIP会员查看完整内容
12

相关内容

[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
11+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年10月4日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
26+阅读 · 2021年8月13日
专知会员服务
35+阅读 · 2021年2月20日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
入门 | 从VGG到NASNet,一文概览图像分类网络
机器之心
6+阅读 · 2018年4月2日
一场深度学习引发的图像压缩革命
极市平台
8+阅读 · 2018年3月30日
一文概览基于深度学习的超分辨率重建架构
探秘视频编码黑科技,窄带高清2.0视觉模型及场景实战
机器学习研究会
5+阅读 · 2017年10月22日
Arxiv
1+阅读 · 2021年11月1日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
30+阅读 · 2019年3月13日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Deformable ConvNets v2: More Deformable, Better Results
VIP会员
相关VIP内容
[ICCV2021]自适应多模态选取框架用于视频理解
专知会员服务
17+阅读 · 2021年10月30日
【NeurIPS2021】NeRV:视频的神经表示
专知会员服务
11+阅读 · 2021年10月28日
专知会员服务
15+阅读 · 2021年10月4日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
22+阅读 · 2021年9月20日
专知会员服务
26+阅读 · 2021年8月13日
专知会员服务
35+阅读 · 2021年2月20日
【AAAI2021】RSPNet: 相对速度感知的无监督视频表示学习
专知会员服务
18+阅读 · 2021年2月12日
相关资讯
深度学习之视频图像压缩
论智
13+阅读 · 2018年6月15日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
入门 | 从VGG到NASNet,一文概览图像分类网络
机器之心
6+阅读 · 2018年4月2日
一场深度学习引发的图像压缩革命
极市平台
8+阅读 · 2018年3月30日
一文概览基于深度学习的超分辨率重建架构
探秘视频编码黑科技,窄带高清2.0视觉模型及场景实战
机器学习研究会
5+阅读 · 2017年10月22日
相关论文
Arxiv
1+阅读 · 2021年11月1日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
30+阅读 · 2019年3月13日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Deformable ConvNets v2: More Deformable, Better Results
微信扫码咨询专知VIP会员