一边动，一边画，自己就变二次元！华人小哥参与的黑科技：实时交互式视频风格化

会员服务 ·

一边动，一边画，自己就变二次元！华人小哥参与的黑科技：实时交互式视频风格化

2020 年 6 月 7 日 量子位

鱼羊十三发自凹非寺
量子位报道 | 公众号 QbitAI

动画，动画，就是你动你的，我画我的。

就像下面这张GIF，左边是张静态图片，随着画者一点一点为其勾勒色彩，右边的动图也在实时地变换颜色。

这就是来自布拉格捷克理工大学和Snap研究所的黑科技——**只需要2个特定的帧，就能实时变换视频中对象的颜色、风格甚至是样式。

当然，更厉害的还在后面。

拿一张你的卡通头像图片，随意对其修改，顶着这张头像，坐在镜头前的你，也会实时发生改变。

甚至，你还可以一边画自己，一边欣赏自己慢慢变成动画效果的过程。

真可谓是这边动着，那边画着，动画就出来了。

而且整个过程无需冗长的训练过程，也不需要大规模训练数据集，研究也提交至SIGGRAPH 2020。

那么，这么神奇的效果到底是如何做到的呢？

交互式视频风格化

首先，输入一个由 N 帧组成的视频序列 I。

如下图所示，对于任何一帧 I_i，可以选择用蒙版 M_i来划定风格迁移的区域，或者是对整一帧进行风格迁移。

用户需要做的是提供风格化的关键帧 S_k，其风格会被以在语义上有意义的方式传递到整个视频序列中。

与此前方法不同的是，这种风格迁移是以随机顺序进行的，不需要等待顺序靠前的帧先完成风格化，也不需要对来自不同关键帧的风格化内容进行显式合并。

也就是说，该方法实际上是一种翻译过滤器，可以快速从几个异构的手绘示例 S_k 中学习风格，并将其“翻译”给视频序列 I 中的任何一帧。

这个图像转换框架基于 U-net 实现。并且，研究人员采用基于图像块（patch-based）的训练方式和抑制视频闪烁的解决方案，解决了少样本训练和时间一致性的问题。

基于图像块的训练策略

关键帧是少样本数据，为了避免过拟合，研究人员采用了基于图像块的训练策略。

从原始关键帧（I_k）中随机抽取一组图像块（a），在网络中生成它们的风格化对应块（b）。

然后，计算这些风格化对应块（b）相对于从风格化关键帧（S_k）中取样对应图像块的损失，并对误差进行反向传播。

这样的训练方案不限于任何特定的损失函数。本项研究中，采用的是L1损失、对抗性损失和VGG损失的组合。

超参数优化

解决了过拟合之后，还有一个问题，就是超参数的优化。不当的超参数可能会导致推理质量低下。

研究人员使用网格搜索法，对超参数的4维空间进行采样：Wp——训练图像块的大小；Nb——一个batch中块的数量；α——学习率；Nr——ResNet块的数量。

对于每一个超参数设置：（1）执行给定时间训练；（2）对不可见帧进行推理；（3）计算推理出的帧（O₄）和真实值（GT₄）之间的损失。

而目标就是将这个损失最小化。

提高时间一致性

训练好了翻译网络，就可以在显卡上实时或并行地实现视频风格迁移了。

不过，研究人员发现在许多情况下，视频闪烁仍很明显。

第一个原因，是原始视频中存在时态噪声。为此，研究人员采用了在时域中运行的双边滤波器的运动补偿变体。

第二个原因，是风格化内容的视觉歧义。解决方法是，提供一个额外的输入层，以提高网络的判别能力。

该层由一组随机2维高斯分布的稀疏集合组成，能帮助网络识别局部上下文，并抑制歧义。

不过，研究人员也提到了该方法的局限性：

当出现新的没有被风格化的特征时，该方法通常不能为其生成一致的风格化效果。需要提供额外的关键帧来使风格化一致。

处理高分辨率（如4K）关键帧比较困难

使用运动补偿的双边滤波器，以及随机高斯混合层的创建，需要获取多个视频帧，对计算资源的要求更高，会影响实时视频流中实时推理的效果。（Demo的实时捕获会话中，没有采用提高时间一致性的处理方法）

研究团队

这项研究一作为Ondřej Texler，布拉格捷克理工大学计算机图形与交互系的三年级博士生。

本科和硕士也均毕业于此。主要研究兴趣是计算机图形学、图像处理、计算机视觉和深度学习。

除了一作之外，我们还发现一位华人作者——柴蒙磊。博士毕业于浙江大学，目前为Snap Research创意视觉(Creative Vision)组的资深研究科学家。

主要从事计算机视觉和计算机图形学的研究，主攻人类数字化、图像处理、三维重建和基于物理的动画。

传送门

项目地址：
https://ondrejtexler.github.io/patch-based_training/

— 完 —

特惠福利 | 一站式音视频解决方案

想赶上直播电商、在线教育、小程序直播的风口？腾讯云音视频解决方案为您助力!

腾讯云推出9.9元产品体验包，包括云点播、云直播、实时音视频，总有一款适合你。识别二维码即可体验：

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

登录查看更多

相关内容

黑科技

关注 4

黑科技是在《全金属狂潮》中登场的术语，原意指倾听者所拥有，但是非人类自力研发，凌驾于人类现有的科技之上的知识；引申为以人类现有的世界观无法理解的猎奇物。也可泛指某些技术宅自制的杀伤性科技，例如激光枪、电磁炮、原子弹等。

黑科技 - 萌娘百科

深度哈希图像检索综述论文，14页pdf

专知会员服务

50+阅读 · 2020年6月14日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

【CVPR2020-Facebook】从检测到3D目标，FroDO: From Detections to 3D Objects

专知会员服务

33+阅读 · 2020年5月12日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

在家上清华！刘洋教授「浅谈研究生学位论文选题」方法，3月7日1小时视频公开课

专知会员服务

41+阅读 · 2020年3月8日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

学习一个宫崎骏画风的图像风格转换GAN

AI科技评论

18+阅读 · 2020年3月13日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

美图秀秀又有P图黑科技：上GAN修老照片，消除人脸马赛克，在线就能体验

量子位

6+阅读 · 2019年9月5日

头像神器！照片一键秒转简笔画，清华刘永进等CVPR 19 Oral研究 | 在线可玩

量子位

18+阅读 · 2019年6月16日

生成逼真3D人偶，居然不用3D形状建模，还能学会你的舞步 | 三星CVPR Oral

量子位

9+阅读 · 2019年6月10日

谷歌AI动画接龙：只用头尾两帧图像，片刻生成完整视频！

新智元

3+阅读 · 2019年5月31日

AI还原半世纪前的黑白电影和照片：效果惊艳在线可玩，网友大呼“鹅妹子嘤”

量子位

11+阅读 · 2019年5月7日

已删除

将门创投

5+阅读 · 2019年5月5日

DeOldify：用GAN为黑白照片重新着色

论智

34+阅读 · 2018年11月2日

新 iPhone 推出的人像光效功能让人惊叹，这都是它的功劳

少数派

3+阅读 · 2017年9月15日

Good News, Everyone! Context driven entity-aware captioning for news images

Arxiv

6+阅读 · 2019年4月2日

Attributed Network Embedding via Subspace Discovery

Arxiv

4+阅读 · 2019年1月14日

Fast deep reinforcement learning using online adjustments from the past

Arxiv

3+阅读 · 2018年10月18日

Deep Convolutional Networks as shallow Gaussian Processes

Arxiv

4+阅读 · 2018年8月16日

Piecewise Flat Embedding for Image Segmentation

Arxiv

3+阅读 · 2018年5月20日

Stack-U-Net: Refinement Network for Image Segmentation on the Example of Optic Disc and Cup

Arxiv

3+阅读 · 2018年4月30日

MQGrad: Reinforcement Learning of Gradient Quantization in Parameter Server

Arxiv

4+阅读 · 2018年4月22日

YOLOv3: An Incremental Improvement

Arxiv

8+阅读 · 2018年4月8日

Hashing as Tie-Aware Learning to Rank

Arxiv

5+阅读 · 2018年3月28日

Arbitrarily-Oriented Text Recognition

Arxiv

3+阅读 · 2017年11月12日

VIP会员