没有绿幕,AI也能完美视频抠图,发丝毕现,毫无违和感 | CVPR

2020 年 4 月 8 日 量子位
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

在阳台上给小姐姐拍个视频:

再把她P到喷泉广场:

需要几步?

现在,无需绿幕,AI 就能搞定这件事。

就像这样,随便用手机给小姐姐拍张照片,再在同一地点拍张不带人像的背景图。

深度神经网络就能自动分析出 alpha 遮罩和前景色,把小姐姐的发丝都抠得根根分明。

视频也是如此。

让憋着笑的同事在实验室白板前表演一段广播体操,再给背景板单独来一张,就可以无中生有把同事“转移”到大厅里,引来路人围观了。

这是来自华盛顿大学的一项最新研究,无需绿幕,无需手动创建 Trimap,一个具有对抗性损失的深度神经网络,就能准确预测遮罩,给照片视频抠图。

论文已经中了 CVPR 2020,代码即将开源。

深度抠图网络 + 鉴别器网络

那么,这样的抠图特技是如何炼成的?

研究人员表示,是具有对抗性损失的深度网络 + 判断合成质量的鉴别器。

深度抠图网络

研究人员先在 Adobe Matting 数据集中的非透明对象子集上对深度神经网络 G 进行了监督训练。

输入是带人像的照片 I 和照片中的背景 B’,以及人像软分割 S 和 运动先验 M(仅对视频而言)。

需要注意的是,在真实环境中,B’ 是通过在真实背景的前景区域随机加入噪声而生成的。

依据输入,网络会预测出 alpha 遮罩 α 和前景图像 F。

研究人员提出用背景切换块(Context Switching block,CS block)来取代基于残差块的编码器-解码器。

有什么不同?

举个例子,当人的一部分与背景相匹配的时候,网络会将更多精力放在该区域的细分线索上。

G 网络有四个不同的编码器,分别适用于 I,B’,S 和 M 四种输入。每个编码器分别生成256个通道的特征图。

通过 1×1 卷积,BatchNorm 和 ReLU,I 中的图像特征分别与 B’,S 和 M 结合,每一对组合都会生成 64 通道特征。

最后,将这 3 个 64 通道特征与原始的 256 通道图像特征组合在一起,生成编码后的特征,并传递到由残差块和编码器组成的其余网络。

在未标记真实数据上的对抗训练

CS block 和数据增强的结合,可以有效弥合真实图像与 Adobe数据集创建的合成图像之间的差距,但真实图像中仍然有存在一些难点:

  • 将手指、手臂、头发周围的背景痕迹复制到遮罩中;

  • 分割失败;

  • 前景色的重要部分与背景颜色接近;

  • 人像照片和背景照片之间没有对准。

为了应对这些问题,研究人员还提出了一种自监督方案,从未标记的真实数据(真实图像 + 背景)中学习。

用深度抠图网络 G 的单独副本 GReal 组成对抗网络,对抗网络会生成类似于  GAdobe 输出的遮罩,而鉴别器网络 D 会判别结果的真假。

研究人员使用真实输入(手机拍摄)联合训练 GReal 和 D,并用 GAdobe 来提供监督。

与SOTA方法的对比

研究人员将新方法与以下几种 SOTA 方法进行了定性比较:

  • 基于 Trimap 的 Context Aware Matting (CAM)和 Index Matting(IM);

  • 自动遮罩算法 Late Fusion Matting(LFM);

不难看出,效果改进着实明显。

你觉得怎么样?不妨mark一下,坐等开源。

毕竟有些大胆的想法,可能已经在酝酿了,是吧?

传送门

项目地址:
http://grail.cs.washington.edu/projects/background-matting/

作者系网易新闻·网易号“各有态度”签约作者


—  —

<英伟达NLP公开课> 开始报名啦,4月9号晚8点,英伟达GPU计算专家将分享 FasterTransformer 2.0 的原理与应用,分享如何针对 decoder 和 decoding 进行优化。

戳二维码,备注“英伟达”即可报名、加交流群,主讲老师也会进群与大家交流互动哦~ 

直播报名 | Decoder与Decoding的优化与加速

天文航天亲子社群招募中,一起来玩吧~

2020年是个天文大年,4月8日有全年最大的超级月亮,6月有横跨中国的日环食,8月有英仙座流星雨,10月还有两年一次的火星冲日,12月有双子座流星雨。

我们邀请美国国家地理极致中国探享家刘允和天文爱好者们,组建了一个天文航天亲子社群,群里除了交流天文航天知识,还会组织一系列讲座、线下观星、航天探访活动。

如果你家有小朋友,也热爱天文航天,一起来玩啊。


量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !


登录查看更多
3

相关内容

CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
27+阅读 · 2020年4月6日
专知会员服务
41+阅读 · 2020年2月20日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
NVIDIA视频合成有多「骚」,看看蒙娜丽莎你就知道了
机器学习算法与Python学习
17+阅读 · 2019年10月28日
已删除
将门创投
7+阅读 · 2019年10月10日
还在PS里手动描边?AI自动抠图只需5秒
机器之心
12+阅读 · 2018年12月19日
【学界】毫秒级图像去噪!英伟达、MIT新AI系统完美去水印
GAN生成式对抗网络
8+阅读 · 2018年7月17日
Arxiv
14+阅读 · 2019年11月26日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
6+阅读 · 2018年1月14日
Arxiv
4+阅读 · 2017年11月4日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员