AI新海诚就是在下,不信来玩

2020 年 8 月 11 日 量子位
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

这样的东京街景,是不是有点日系纪实动漫那种feel了?

现在,不需要人类画师一帧帧描画,把你拍下的视频喂给AI,就能让现实世界分分钟掉进二次元世界。

布景:

美食:

甚至复仇者联盟,也能瞬间打破电影宇宙和漫画宇宙的界限。

这项研究名为White-box-Cartoonization,来自字节跳动、东京大学和Style2Paints研究所。

论文已收录于CVPR 2020。

白盒卡通表示

如此AI「魔法」的关键,还是生成对抗网络(GAN)。

并且,研究人员提出了三个白盒表示方法,分别用来表示平滑表面、结构和纹理。

表面表示:表示动漫图像的光滑表面。

使用导向滤波器对图像进行处理,在保持图像边缘的同时平滑图像,去除图像的纹理和细节信息。

结构表示:获取全局结构信息和稀疏色块。

首先使用felzenszwalb算法将图像分割成不同的区域。

由于超像素算法只考虑像素的相似性而忽略语义信息,研究人员进一步引入选择性搜索来合并分割区域,提取稀疏分割图。

另外,标准的超像素算法会使全局对比度降低,导致图像变暗。

为此,研究人员提出了一种自适应着色算法,以增强图像对比度,减少朦胧效果。

然后,用预训练的VGG16网络提取生成器生成的图像和抽取的结构表示的高级特征,限制空间结构。
       
纹理表示:反映卡通图像中的高频纹理、轮廓和细节。

研究人员提出了一种从色彩图像中提取单通道纹理表示的随机颜色偏移算法,以保留高频纹理,减少色彩和亮度的影响。

整个GAN框架带有一个生成器G,以及两个判别器Ds和Dt。其中Ds旨在区分模型输出的表面表示和真正的动漫图像。Dt用于区分模型输出的纹理表示和真正的动漫图像。

具体而言,生成器网络是一个类似U-Net的全卷积网络。

研究人员使用 stride=2 的卷积层进行下采样,以双线性插值层作为上采样,以避免棋盘式伪影。

该网络只由3种层组成:卷积层、Leaky ReLU(LReLU)和双线性调整层。这使得该网络能轻松嵌入到手机等边缘设备中。

判别器网络则基于PatchGAN进行了调整,其最后一层为卷积层。

输出特征图中的每个像素对应输入图像中的一个图像块(patch),用于判断图像块属于真正的动漫图像还是生成图像。

训练数据集方面,风景图像采集自新海诚、宫崎骏和细田守的动漫作品,人像图像则来自京都动画和PA Works。影片都被剪辑成帧并随机剪裁,大小为256×256。

实验结果

所以,这种图像卡通化方法的效果究竟如何。

在定量实验中,研究人员发现,AI提取的表示成功愚弄了训练好的分类器。

与原始图像相比,分类器在三个提取的卡通表示中准确率都比较低。

另外,计算出的FID指标也显示,卡通表征有助于缩小真实世界照片和卡通图像之间的差距。

再来看一组直观的对比。

(f)-(g)为CartoonGAN

与之前的方法相比,白盒框架能生成更为清晰的边界轮廓,并有助于保持色彩的和谐。

比如,图中(f)-(g)所展示的CartoonGAN的某些风格就存在色彩失真的问题,而白盒框架色彩更为自然。

另外,白盒框架也有效地减少了伪影,效果超越CartoonGAN。

网友:惊艳

如此效果,让不少网友大呼「惊艳」,在reddit上达到了500+的热度。

有网友表示,有了这样的黑科技,未来,或许只需要一个创意,就能打造一部好作品。市场的准入门槛将因此而降低。

也有网友认为,颜艺、卖萌这类现实中不存在的画面,还是要靠动漫制作人员的创作。不过,这样的AI将来无疑能减轻动漫制作人员的工作量。

现在,研究人员还放出了在线Demo,如果你感兴趣,可以亲自上手试试~

最后,左边出自人类的画笔,右边是AI的大作,你pick哪一个?
       
       
             

传送门

GitHub地址:
https://github.com/SystemErrorWang/White-box-Cartoonization

在线Demo:
https://cartoonize-lkqov62dia-de.a.run.app/cartoonize

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

报名 |「隐私计算+AI」技术直播

不了解任何隐私AI技术的情况下,开发者怎样做到只改动两三行代码,就将现有AI代码转换为具备数据隐私保护功能的程序?

8月6号, 中科院软件研究所博士、矩阵元算法科学家--谢翔将直播解析,加小助手“qbitbot9”或者直接扫码,即可进入直播交流群:

量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !



登录查看更多
0

相关内容

白盒测试(也称为透明盒测试,玻璃盒测试,透明盒测试和结构测试)是一种软件测试方法,用于测试应用程序的内部结构或功能,而不是其功能(即黑盒测试)。在白盒测试中,系统的内部视角以及编程技能被用来设计测试用例。测试人员选择输入以遍历代码的路径并确定预期的输出。这类似于测试电路中的节点,在线测试(ICT)。白盒测试可以应用于软件测试过程的单元,集成和系统级别。尽管传统的测试人员倾向于将白盒测试视为在单元级别进行的,但如今它已越来越频繁地用于集成和系统测试。它可以测试单元内的路径,集成期间单元之间的路径以及系统级测试期间子系统之间的路径。
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
34+阅读 · 2020年9月2日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
26+阅读 · 2020年4月6日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
你跳宅舞的样子很专业:不,这都是AI合成的结果
能生成逼真图像的不只有 GAN
机器学习算法与Python学习
8+阅读 · 2019年6月6日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
干货 | CVPR 2018论文:「随心所欲」换装换姿态
AI科技评论
9+阅读 · 2018年7月2日
【学界】实景照片秒变新海诚风格漫画:清华大学提出CartoonGAN
GAN生成式对抗网络
14+阅读 · 2018年6月20日
Arxiv
8+阅读 · 2020年8月30日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Deep Learning for Energy Markets
Arxiv
8+阅读 · 2019年4月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
8+阅读 · 2018年1月19日
Arxiv
10+阅读 · 2017年11月22日
VIP会员
相关VIP内容
【ACM MM2020】对偶注意力GAN语义图像合成
专知会员服务
34+阅读 · 2020年9月2日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
26+阅读 · 2020年4月6日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【论文】结构GANs,Structured GANs,
专知会员服务
14+阅读 · 2020年1月16日
相关论文
Arxiv
8+阅读 · 2020年8月30日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Deep Learning for Energy Markets
Arxiv
8+阅读 · 2019年4月10日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
8+阅读 · 2018年1月19日
Arxiv
10+阅读 · 2017年11月22日
Top
微信扫码咨询专知VIP会员