或许在某个瞬间你曾艳羡于梵高和莫奈的画作;或许某个年纪你曾幻想成为二次元里一个动漫人物;或许你曾梦回古代,想象自己穿上古装的样子。如今,“图像风格化”就可以将你的梦想将变成现实。
也许你还没有听说过“图像风格化”这个词语,那就看看那下面这几幅图:
原始艺术风格图像
+
普通的图像
↓↓↓
将原始艺术风格融合到普通图像中的结果
没错,这就是图像风格化的过程!
图像风格化:给“随手拍”赋予艺术气息
图像风格化又可以称为风格迁移,即将一张具有艺术特色的图像的风格迁移到一张普通的图像上,使原有的图像保留原始内容的同时,具有独特的艺术风格,如卡通、漫画、油画、水彩、水墨等。
这个功能是不是我们期盼已久的呢?但我们不是美术专业出生,如何把自己拍的风景照变得极具艺术气息,或者把自己的照片变成一张素描画或者卡通画呢?或许你会觉得网上已经有很多类似的美图软件可以直接生成,但是,如果这些图片处理方式里没有自己喜欢的样式怎么办呢?这个时候,DIY图像风格化技术就可以帮助我们了。
当然,优秀的技术发展过程总是漫长和艰辛的。在非真实感图像学领域,图像艺术分为三种方法:
基于笔触渲染的方法(Stroke-basedRendering):也就是学习风格图片中的笔触信息,但是这种方法不能简单地扩展到其他风格的迁移,使其使用大大受限。
基于图像类比的方法(Image Analogy):需要很多成对的原图和风格结果图。
基于图像滤波的方法(Image Filtering):速度快,可满足工业界落地的需求,但是这个方法太简单了,不容易做风格复杂的迁移。
但是目前的图像风格化方法已经克服上面的问题,并且能够提供“一键式生成工具”,不需要掌握专业的图片处理技术就能快速的创作自己想要的图片效果。
两种经典的图像风格化处理技术
近些年来,人工智能发展迅猛,深度学习也成为研究热点之一。随着深度学习在图像处理领域的发展,一种基于深度学习的快速图像风格化应运而生。这种图像风格化的方法大大提高了图片生成的速度,并且使生成的图片具有更好的视觉效果。
1、基于CNN的图像风格化
图像风格化迁移这一领域的开山鼻祖 Gatys 首先发了一篇 NIPS,提出了一个新的基于 CNN 的纹理建模方法——TextureSynthesis Using Convolutional Neural Networks,利用得到的 Gram 矩阵来表示图片的纹理信息,并在2015年提出了用 CNN 做风格化处理。
这篇论文的关键发现在于风格和内容在卷积神经网络中的表达是可以分开的,不同层次所表达的信息不同(高层表示内容信息,低层表示风格信息)。
CNN 不同层次提取特征示意图
Gatys 将原始图片、风格图片、初始化图片输入到卷积神经网络中,在卷积层计算初始化图片与原始图片之间内容的差异、与风格图片之间风格的差异,用损失函数表示。通过误差反传,采用梯度下降的方法不断更新初始化图片,直到产生令人满意的结果。
但是,这个方法耗时太长了,难以满足产品落地需求。
2016年,人工智能界优秀的女学者李飞飞提出了一种快速风格化的方法。她的工作的重大突破在于,大大缩短了生成图片的时间。在 GPU 上生成一张图片仅需零点几秒!
李飞飞提出的网络结构包括图像转换网络和损失网络。图像转换网络是一个深度残差卷积网络,损失网络采用预训练 VGG16 网络结构。
系统包括两个阶段:
(1) 训练模型阶段。
网络中待训练模型参数是图像转换网络中的参数。输入训练集图片,通过一个转换函数将输入图像 x 转化成风格图像。
将生成图片、风格图片、内容图片出入到损失网络中,计算图像转换网络输出的风格化结果图与内容图片(待转换图片)以及风格图片(目标风格图片)之间的差异,将这种差异用损失函数的形式表示,传递给图像转换网络,通过最小化总损失,更新图像转换网参数,直到最终的到理想的模型。
(2) 图像生成阶段。
这个时候只要输入一张原图,就可以得到风格化结果了,很方便,效果也很好。
2、基于 GAN 的图像风格化
风格化最近这么火热,GAN 怎么能不来凑个热闹呢。GAN 即生成对抗网络。其核心思想来源于博弈论的纳什均衡,即一方有所得,另一方必有所失。
GAN 包含两部分,一个判别器和一个生成器。生成器的目的是学习真实的数据分布,产生与真实数据分布接近的样本;判别器的目的是判别输入数据是来自真实数据还是来自生成器。通过不断优化生成器和判别器,使两者结果都达到最优。
GAN 算法框架
2017年,朱俊彦团队利用 GAN 的思想,做出来令人瞩目的成果,效果如下图所示,看看,是不是被惊艳到了!果然 GAN 在做图像生成任务,除了训练困难一点,别的没话说!
CycleGan 生成结果示意图
朱俊彦团队提出了 CycleGAN 的结构。它不仅可以完成图像风格之间的转换,比如将照片变成艺术画,还可以进行图片季节迁移、夏天变冬天、物种迁移、斑马变马等。
CycleGAN 本质上是两个镜像对称的 GAN 构成了一个环形网络。其中一个生成器把 X 域的图片转化为 Y 域的图片,另一个把 Y 域的图片转化为 X 域的图片,两个判别器分别判断图片是真实图片域内的图片还是生成图片。
图像风格化的应用场景
当然现在图像风格化工作已经不局限于图像艺术化了,看下面的拓展应用,有没有觉得非常惊叹!
没事给爱车换个车型(语义风格迁移)
偶尔装一装大艺术家(涂鸦变油画)
换个艺术头像(肖像风格迁移)
犯懒了不想手动上色了(样稿上色)
工业界还有一些落地的产品呢
自动化所的研究成果
这么有趣又实用的领域,自然少不了中科院自动化所的研究人员参与。还记得世界杯期间你狂热换的头像吗?没错,就是自动化所的研究成果之一!
ZHANG, Yong, Weiming DONG et al. “Data-drivenface cartoon stylization.” SIGGRAPH ASIA Technical Briefs (2014).
这么有趣的事情根本停不下研究的脚步。没有最美,只有更美!
ZHANG, Yong, Weiming DONG et al. Data-DrivenSynthesis of Cartoon Faces Using Different Styles. In: IEEE Transactions onimage processing2017. 26(1),pp. 464-478
当然,每年计算机视觉领域顶会针对这种场景应用都有层出不穷的优化方法。如果自己能动手做一做,也是很有成就感的!
来源:中国科学院自动化研究所
温馨提示:近期,微信公众号信息流改版。每个用户可以设置 常读订阅号,这些订阅号将以大卡片的形式展示。因此,如果不想错过“中科院之声”的文章,你一定要进行以下操作:进入“中科院之声”公众号 → 点击右上角的 ··· 菜单 → 选择「设为星标」