没有绿幕，AI也能完美视频抠图，发丝毕现，毫无违和感

会员服务 ·

没有绿幕，AI也能完美视频抠图，发丝毕现，毫无违和感 | CVPR

2020 年 4 月 8 日 量子位

鱼羊发自凹非寺
量子位报道 | 公众号 QbitAI

在阳台上给小姐姐拍个视频：

再把她P到喷泉广场：

需要几步？

现在，无需绿幕，AI 就能搞定这件事。

就像这样，随便用手机给小姐姐拍张照片，再在同一地点拍张不带人像的背景图。

深度神经网络就能自动分析出 alpha 遮罩和前景色，把小姐姐的发丝都抠得根根分明。

视频也是如此。

让憋着笑的同事在实验室白板前表演一段广播体操，再给背景板单独来一张，就可以无中生有把同事“转移”到大厅里，引来路人围观了。

这是来自华盛顿大学的一项最新研究，无需绿幕，无需手动创建 Trimap，一个具有对抗性损失的深度神经网络，就能准确预测遮罩，给照片和视频抠图。

论文已经中了 CVPR 2020，代码即将开源。

深度抠图网络 + 鉴别器网络

那么，这样的抠图特技是如何炼成的？

研究人员表示，是具有对抗性损失的深度网络 + 判断合成质量的鉴别器。

深度抠图网络

研究人员先在 Adobe Matting 数据集中的非透明对象子集上对深度神经网络 G 进行了监督训练。

输入是带人像的照片 I 和照片中的背景 B’，以及人像软分割 S 和运动先验 M（仅对视频而言）。

需要注意的是，在真实环境中，B’ 是通过在真实背景的前景区域随机加入噪声而生成的。

依据输入，网络会预测出 alpha 遮罩 α 和前景图像 F。

研究人员提出用背景切换块（Context Switching block，CS block）来取代基于残差块的编码器-解码器。

有什么不同？

举个例子，当人的一部分与背景相匹配的时候，网络会将更多精力放在该区域的细分线索上。

G 网络有四个不同的编码器，分别适用于 I，B’，S 和 M 四种输入。每个编码器分别生成256个通道的特征图。

通过 1×1 卷积，BatchNorm 和 ReLU，I 中的图像特征分别与 B’，S 和 M 结合，每一对组合都会生成 64 通道特征。

最后，将这 3 个 64 通道特征与原始的 256 通道图像特征组合在一起，生成编码后的特征，并传递到由残差块和编码器组成的其余网络。

在未标记真实数据上的对抗训练

CS block 和数据增强的结合，可以有效弥合真实图像与 Adobe数据集创建的合成图像之间的差距，但真实图像中仍然有存在一些难点：

将手指、手臂、头发周围的背景痕迹复制到遮罩中；
分割失败；
前景色的重要部分与背景颜色接近；
人像照片和背景照片之间没有对准。

为了应对这些问题，研究人员还提出了一种自监督方案，从未标记的真实数据（真实图像 + 背景）中学习。

用深度抠图网络 G 的单独副本 G_Real 组成对抗网络，对抗网络会生成类似于 G_Adobe 输出的遮罩，而鉴别器网络 D 会判别结果的真假。

研究人员使用真实输入（手机拍摄）联合训练 G_Real 和 D，并用 G_Adobe 来提供监督。

与SOTA方法的对比

研究人员将新方法与以下几种 SOTA 方法进行了定性比较：

基于 Trimap 的 Context Aware Matting （CAM）和 Index Matting（IM）；
自动遮罩算法 Late Fusion Matting（LFM）；

不难看出，效果改进着实明显。

你觉得怎么样？不妨mark一下，坐等开源。

毕竟有些大胆的想法，可能已经在酝酿了，是吧？

传送门

项目地址：
http://grail.cs.washington.edu/projects/background-matting/

作者系网易新闻·网易号“各有态度”签约作者

— 完 —

<英伟达NLP公开课> 开始报名啦，4月9号晚8点，英伟达GPU计算专家将分享 FasterTransformer 2.0 的原理与应用，分享如何针对 decoder 和 decoding 进行优化。

戳二维码，备注“英伟达”即可报名、加交流群，主讲老师也会进群与大家交流互动哦~

直播报名 | Decoder与Decoding的优化与加速

天文航天亲子社群招募中，一起来玩吧~

2020年是个天文大年，4月8日有全年最大的超级月亮，6月有横跨中国的日环食，8月有英仙座流星雨，10月还有两年一次的火星冲日，12月有双子座流星雨。

我们邀请美国国家地理极致中国探享家刘允和天文爱好者们，组建了一个天文航天亲子社群，群里除了交流天文航天知识，还会组织一系列讲座、线下观星、航天探访活动。

如果你家有小朋友，也热爱天文航天，一起来玩啊。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

深度抠图

关注 0

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【CVPR2020-斯坦福】从RGB-D扫描对抗纹理优化，Adversarial Texture Optimization

专知会员服务

17+阅读 · 2020年3月21日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【ICCV 2019 Tutorial】Deraining and Adherent Raindrop Removal（排水和去除液滴），新加坡国立大学 Robby T. Tan副教授

专知会员服务

10+阅读 · 2019年10月30日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

NVIDIA视频合成有多「骚」，看看蒙娜丽莎你就知道了

机器学习算法与Python学习

17+阅读 · 2019年10月28日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

已删除

将门创投

7+阅读 · 2019年10月10日

美图秀秀又有P图黑科技：上GAN修老照片，消除人脸马赛克，在线就能体验

量子位

6+阅读 · 2019年9月5日

还在PS里手动描边？AI自动抠图只需5秒

机器之心

12+阅读 · 2018年12月19日

业界 | GAN生成的假脸太逼真了！别怕，十招教你识别AI生成的假图像

大数据文摘

15+阅读 · 2018年12月18日

【学界】毫秒级图像去噪！英伟达、MIT新AI系统完美去水印

GAN生成式对抗网络

8+阅读 · 2018年7月17日

Adobe用机器学习“反PS”，修没修图一眼就看出来

论智

3+阅读 · 2018年6月25日

视频分割技术登录移动端，提供便利便利实时抠图服务。

AR酱

8+阅读 · 2018年3月4日

神奇女侠演员下海拍片？都是 ML 算法搞的……这是如何做到的？

Linux爱好者

18+阅读 · 2017年12月17日

Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

Arxiv

8+阅读 · 2020年3月12日

Few-Shot Knowledge Graph Completion

Arxiv

15+阅读 · 2019年11月26日

NSCaching: Simple and Efficient Negative Sampling for Knowledge Graph Embedding

Arxiv

7+阅读 · 2019年1月18日

Foreground-aware Image Inpainting

Arxiv

4+阅读 · 2019年1月17日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Improved Image Captioning with Adversarial Semantic Alignment

Arxiv

6+阅读 · 2018年4月30日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

10+阅读 · 2018年3月20日

Finding ReMO (Related Memory Object): A Simple Neural Architecture for Text based Reasoning

Arxiv

4+阅读 · 2018年1月26日

Fake Colorized Image Detection

Arxiv

6+阅读 · 2018年1月14日

An Iterative Co-Saliency Framework for RGBD Images

Arxiv

4+阅读 · 2017年11月4日

VIP会员