图像算法可以稳定处理视频了！港科大开源港科大开源其通用算法

会员服务 ·

图像算法可以稳定处理视频了！港科大开源港科大开源其通用算法

2020 年 11 月 2 日 AI科技评论

作者丨雷晨阳、邢亚洲

许多图像处理算法虽在单个图像处理中表现出色，但将其直接用于视频时往往会遇到时域不一致问题。本文提出一种通用的框架，可将图像处理算法转换为对应的具有高度时域一致性的视频处理算法，以解决上述问题。

论文链接：https://arxiv.org/abs/2010.11838
项目主页：https://chenyanglei.github.io/DVP/index.html
视频演示：

论文详细介绍

许多图像处理算法已在单个图像处理任务中表现了出色的性能，但是将它们直接应用于视频上通常会有时域不一致问题（例如闪烁问题），如图1所示。

为了提高时域一致性，大多数研究人员针对不同的视频处理任务设计了专用算法，例如视频上色，视频去噪和视频超分辨率。尽管特定任务的视频处理算法可以改善时域一致性，但是能否将类似的策略应用于其他任务尚不清楚或具有挑战性。

不同于前者，作者提出了一种新颖且通用的框架，该框架可以将图像处理算法转换为对应的具有高度时域一致性的视频处理算法。


输入视频帧	应用图像上色算法的预处理视频

图1 将图像算法应用上视频上

作者观察到一种称作深度视频先验（Deep Video Prior, DVP）的现象：利用视频帧来训练卷积网络的过程中，视频不同帧之间的对应图像块的网络预测输出倾向于一致。此外，作者认为，视频中的闪烁现象类似于时域中的”噪声“，可以通过该深度视频先验来进行校正。具体而言，在尝试拟合带有闪烁问题的预处理视频时，网络会首先拟合视频中的共同特征，最后才会拟合到不稳定的闪烁噪声。



预处理视频	算法输出

图2. 利用作者算法处理一个不稳定的预处理视频

图3 算法框架对比

将输入视频帧

通过应用图像处理算法f可获得相应的预处理帧

。。例如，图像处理算法f可以是图像着色，图像去雾或任何其他算法。该框架通过输入视频和预处理视频来获得具有时域一致性的输出视频，如图2所示。该算法整体框架如图3所示，作者使用一个全卷积网络g模仿原始图像算法f，同时保持时域一致性。

与前人工作(Lai et al.) 不同，训练仅需单个视频，并且仅使用单个帧进行每次训练迭代。作者对网络进行进行随机初始化，然后可以在每次网络优化迭代中使用单个数据项对其进行优化，而无需进行任何显式正则化（如光流等）。

如图2所示，视频的时域稳定性得到了较大提升。

图4 两种时域不稳定现象

作者发现许多时域不一致问题属于单模态不一致：所有预处理帧接近于同一模式但是相互之间略有不一致。然而，对于某些任务，存在单一输入具有多种可能预测结果（例如，在上色算法中，汽车可能会被着色为红色或蓝色）。

在这种情况下，如图4右图所示，预处理视频中的时间不一致在视觉上更加明显。由于多个模态之间的差异可能很大，因此对不同模式进行平均会导致较差的性能，这与任何一种可能的输出都相去甚远。以前的方法无法生成一致的结果[19]或倾向于大大降低原始性能[3]。

作者提出了一种迭代加权训练（IRT）策略来处理多模态时域不一致的问题，因为它无法被基本的深度视频先验（DVP）来解决。在IRT中，置信度旨在为每个像素从多种模式中选择一种主模式，而忽略离群值（一种次要模式或多种模式）。

作者通过增加网络输出中的通道数量（例如，两个RGB图像为六个通道）以获得两个输出：一个主帧; 和一个离群帧。最终我们通过置信图来选择不同的像素用以训练两个不同的帧。

作者首先通过实验中的7个任务评估框架，包括视频上色、视频去雾、视频增强、视频白平衡等等。

作者利用两个指标分别评估视频稳定性和效果退化问题并且在两个指标上都超过了盲视频时域一致性领域内最好的算法。

作者也进行了一个user study，在大多数任务上作者的结果最受喜爱。

‍图5 算法效果对比示例‍

如图5所示，在上色和白平衡的任务中，作者的算法得到了时域一致性的结果，同时最大程度上保留图像算法的效果。

图6 IRT的影响

如图6所示，通过使用IRT策略，在面临多模态不一致问题时，作者算法依旧可以得到时域稳定的效果。

图7 不同网络结构的影响‍

如图7所示，作者验证了深度视频先验（DVP）在多种网络结构上都是有效的。

总结

作者提出了一种简单而通用的方法来提高经图像算法处理的预处理视频时的时域一致性。

基于作者观察到的深度视频先验（DVP），作者通过利用单个视频从头训练CNN来实现时域一致性。与以前的工作相比，作者的方法要简单得多，并且可以产生令人满意的结果（更好的时域一致性以及更大程度保留原始算法效果）。

作者的迭代加权训练（IRT）策略还很好地解决了具有挑战性的多模态不一致问题。

作者认为，所提出的方法的简单性和有效性可以将图像处理算法转化成其对应的视频处理算法。因此，利用该框架，人们可以将最新的图像处理算法直接应用于视频。

作者方法的局限性之一是相对较长的测试时间。尽管作者的方法不需要训练大型数据集，但需要为每个视频训练一个单独的模型，与Lai等人相比，比直接推理要花费更多的时间。但是，与以前采用显式采用光流来增强时域一致性的方法不同，作者证明了这一点，通过神经网络训练可以隐式地实现视频先验（即时域一致性）。

作者表示，他们将专注于提高效率以缩短实际应用中的处理时间。此外，作者相信DVP的概念可以进一步扩展到其他类型的数据，例如3D数据和多视图图像。DVP不依赖于视频帧的顺序，并且自然应适用于维护多个图像之间的多视图一致性。对于3D volume数据，3D CNN也可能表现出DVP的相似属性。

作者介绍

雷晨阳，香港科技大学三年级博士生，博士导师陈启峰，本科毕业于浙江大学，主要研究领域：计算摄影学，图像处理和视频处理，low-level computer vision，3D vision。

邢亚洲，香港科技大学三年级博士生，博士导师陈启峰，本科毕业于武汉大学，主要研究领域：计算摄影学，图像增强，low-level computer vision。

点击阅读原文，直达NeurIPS小组~

登录查看更多

相关内容

图像处理

关注 2848

图像处理(image processing)，用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组，该数组的元素称为像素，其值称为灰度值。

2840页博士论文！《矩阵理论:优化、集中和算法》，德州大学奥斯汀Zhao Song

专知会员服务

49+阅读 · 2021年1月25日

【博士论文】基于深度学习的图像处理算法研究

专知会员服务

81+阅读 · 2020年12月6日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

专知会员服务

12+阅读 · 2020年9月2日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知会员服务

147+阅读 · 2020年7月26日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架

专知会员服务

26+阅读 · 2020年3月15日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究，天津大学任文琦

专知会员服务

48+阅读 · 2019年11月8日

【CCF优秀博士学位论文奖-2019初评】基于深度学习的场景分割技术研究，中科院计算所张蕊

专知会员服务

32+阅读 · 2019年11月8日

图像/视频去噪算法资源集锦

专知

19+阅读 · 2019年12月14日

CVPR 2019 | 国防科大提出双目超分辨算法，效果优异代码已开源

极市平台

19+阅读 · 2019年6月8日

低清视频也能快速转高清：超分辨率算法TecoGAN

极市平台

14+阅读 · 2019年5月4日

CVPR 2019 | 图像压缩重建也能抵御对抗样本

计算机视觉life

3+阅读 · 2019年4月26日

【学界】画个草图生成2K高清视频，这份效果惊艳研究值得你跑一跑

GAN生成式对抗网络

8+阅读 · 2018年8月26日

深度学习之视频图像压缩

论智

13+阅读 · 2018年6月15日

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

如何设计基于深度学习的图像压缩算法

论智

41+阅读 · 2018年4月26日

干货 | 用深度学习设计图像视频压缩算法：更简洁、更强大

AI科技评论

4+阅读 · 2018年1月11日

【泡泡一分钟】基于单目小运动视频的快速深度估计算法(3dv-20)

泡泡机器人SLAM

6+阅读 · 2017年12月22日

Generalizing Adversarial Examples by AdaBelief Optimizer

Arxiv

0+阅读 · 2021年1月25日

Affective Computing for Large-Scale Heterogeneous Multimedia Data: A Survey

Arxiv

10+阅读 · 2019年10月3日

Meta Learning for Task-Driven Video Summarization

Arxiv

6+阅读 · 2019年7月29日

CornerNet-Lite: Efficient Keypoint Based Object Detection

Arxiv

3+阅读 · 2019年4月18日

Strong-Weak Distribution Alignment for Adaptive Object Detection

Arxiv

6+阅读 · 2018年12月12日

Large-Scale Study of Curiosity-Driven Learning

Arxiv

8+阅读 · 2018年8月13日

Efficient end-to-end learning for quantizable representations

Arxiv

4+阅读 · 2018年6月12日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection

Arxiv

6+阅读 · 2018年3月27日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

VIP会员