视频隐身衣：物体移除、去水印、后期处理毫无痕迹

会员服务 ·

视频隐身衣：物体移除、去水印、后期处理毫无痕迹

2020 年 10 月 9 日 计算机视觉life

点击上方“计算机视觉life”，选择“星标”

快速获得最新干货

本文转载自AI科技评论

作者 | 贝爽

还记得哈利波特的“隐身斗篷”吗？

披上斗篷的哈利波特瞬间隐身，毫无痕迹。

现在只需要一个AI算法，你也可以拥有这件“AI隐身衣”。

视频“擦除”，这个AI就够了

在视频后期处理中，经常会遇到一项难搞的需求：如何把一个人/物从视频中完美剔除？虽然Ps技术已经很普及，但也很难处理视频问题。

而现在，只需要一个名为光流边缘引导（Flow-edge Guided）的AI修复算法，这项耗时又费力的工作分分钟就可以搞定。

至于效果怎么样？我们直接看演示图。

上一秒还在路上行驶的汽车，下一秒好像从未出现过。

背景也被高度还原，看不出一点痕迹，比如下图女孩消失后，秋千依然还在。

另外，它也能处理更复杂的场景和物体，比如还有漂浮在海上的帆船，正在跨越栏杆的赛马选手。

如此完美的视频处理效果，也让网友惊呼：现实版《真相捕捉》，视频可能再也不是可靠的证据。

研究人员表明，这款AI算法在视频物体移除、去水印和画面扩展方面均达到了目前的最佳SOTA。而且它还刚刚还被ECCV 2020顶会收录。

ECCV全称欧洲计算机视觉国际会议（European Conference on Computer Vision），是计算机视觉三大会议之一，每两年举办一次，论文录取率仅为27%。

光流边缘引导修复算法

这项“隐身”AI修复技术，主要采用的是光流边缘引导修复算法。

与现有方法相比，该算法能够更精准的识别目标物体的运动边界。

现有算法主要通过相邻帧的局部流连接传播色彩，这种方式不能保证所有视频在删除目标物体后，其背景都能恢复原貌，因此，很容易留下伪影。

该算法通过引入非局部流连接（Non-local Flow Connections）解决了这个问题，并使得视频内容能够在运动边界上传播。

通过在DAVIS数据集上的验证，其可视化和定量结果都表明，该算法具有更好的性能。

具体来说，它主要是通过以下几个方面的改进实现了最终的效果：

光流边缘（Flow edges）：补全分段光滑流。（图1b）
非局部流（Non-local flow）：连接不能通过传递流（transitive flow）到达的区域。（图1C）
无缝融合（Seamless blending）：通过在梯度域中执行融合操作避免结果中的可见接缝（图1d）。
内存效率（Memory efficiency），处理4K分辨率的视频，其他方法由于GPU内存需求过大而无法实现。

以下是实现过程的完整架构图，图1a部分是模型的输入源，由彩色视频和二进制的掩码视频两部分构成其中，被遮罩的像素称为缺失区域，代表需要合成的部分。

图1：算法模型概览

（1）光流补全（Flow completion）

计算相邻帧之间的正向和反向流以及一组非相邻帧，并补全这些流场中的缺失区域。（缺失区域的值往往为零，白色）

由于边缘通常是流映射中最显著的特征，因此首先完成边缘的提取，然后，再以补全之后的边缘为导向，逐步完成分段平滑流。

（2）时间传播（Temporal propagation）

接下来，沿着流的轨迹为每个丢失像素传播一组候选像素。从链接前向和后向的流向量得到两个候选点，直到到达一个已知像素。

这一过程利用的是非局部流向量：通过检查三个时间间隔的帧来获得另外三个候选帧，对于每个候选者，估计一个置信分数以及一个二进制有效性指标。

如图，绿色区域代表缺失部分，黄色、橙色和棕色线分别代表第一个非局部帧、当前帧和第三个非局部帧的扫描线。

通过跟踪流动轨迹（黑色虚线）达到缺失区域的边缘，可以获得蓝色像素的局部候选对象。但由于人腿部运动形成的流动障碍，无法获取红色像素的候选对象。

在这里研究人员借助于连接到时间距离帧的非局部流，获得了红色像素的额外非局部邻域，并还原了腿部覆盖的真实背景。

（3）融合（Fusion）

使用置信加权平均值（A Confidence-weighted Average）将每个缺失像素的候选像素与有效候选像素进行融合（至少一个）。这一过程在梯度域内进行，以避免可见的彩色接缝（图2d）。

如果在此过程之后仍有缺失的像素，且无法通过时间传播来填充，将采用一个关键帧，使用单个图像完成技术来填充它。

最后将整个过程不断迭代输入，并将结果传播到视频的其余部分，以便在下一次迭代中加强时间一致性。

与先进算法相比，算法最佳

论文中，研究人员利用DAVIS数据集，与其他六种现有方法进行了比较，并进一步评估了PSNR，SSIM和LPIPS三项指标。

由于内存限制，并不是所有的方法都能处理960×512的分辨率，所以将其缩小到了720×384，并报告了两种分辨率的数值。结果显示，在这三个指标上，本次研究算法性能表现最佳（红色加粗数据）。

另外，在光流补全方面，与最新进的Diffusion和徐瑞（商汤）的算法相比，该方法也能更好地呈现锐利且平滑的运动边界。

此外，在修复任务（前三列）和对象移除任务（后三列）方面，也有视觉上也有更好的体现。

关于作者

这篇论文由四位研究人员合力完成，包括弗吉尼亚大学的Chen Gao和Jia-Bin Huang，以及Facebook的Ayush Saraf和Johannes Kopf。其中，Chen Gao是本篇论文的一作。

Chen Gao是弗吉尼亚大学的一名在读博士，专攻计算摄影和计算机视觉领域，研究重点是图像/视频操作和场景理解。在此之前，曾就读于密歇根大学和俄勒冈州立大学。

2019年夏季，Johannes Kopf博士的帮助下，Chen Gao成为了Facebook Seattle的一名研究实习生，并且与其团队成员合作完成了这篇论文，此外，他还是Google的研究实习生，与Shi Yichang Chang和Lai Wei-Sheng Li都有过深度合作。

最后，该团队表示会在近期将这项技术开源。

项目主页：http://chengao.vision/FGVC/

项目论文：http://chengao.vision/FGVC/files/FGVC.pdf

从0到1学习SLAM，戳↓

视觉SLAM图文+视频+答疑+学习路线全规划！

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

投稿、合作也欢迎联系：simiter@126.com

扫描关注视频号，看最新技术落地及开源方案视频秀 ↓

登录查看更多

相关内容

ECCV

关注 485

ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ，两年一次，是计算机视觉三大会议（另外两个是ICCV和CVPR）之一。每次会议在全球范围录用论文300篇左右，主要的录用论文都来自美国、欧洲等顶尖实验室及研究所，中国大陆的论文数量一般在10-20篇之间。

【伯克利】神经网络中的对称性与同变性，附视频与114页ppt

专知会员服务

25+阅读 · 2020年10月2日

[CVPR 2020]BEDSR-Net：单张文档图像的阴影去除深度网络

专知会员服务

26+阅读 · 2020年9月29日

【ECCV2020-旷视】利用边界特征做检测的BorderDet

专知会员服务

13+阅读 · 2020年9月19日

【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法

专知会员服务

12+阅读 · 2020年9月2日