动态 | 伯克利最新研究:GANs在字体风格迁移上的应用

2018 年 3 月 14 日 AI科技评论 杨文

AI科技评论按:怎样能快速生成风格相同的字体呢?伯克利 AI 研究院最新发表的一篇博客告诉你他们最新的研究。

左:给出的电影海报,右:由MC-GAN生成的新电影片名

文字是平面设计中很突出的视觉元素。艺术家投入大量时间来设计不同的字形,使得它与其他元素在形状和纹理上相协调。这个过程是需要大量劳动力的,艺术家通常只设计标题或注释所需的字形子集,这使得设计一旦完成后,要想将观察到的字体形式迁移到自己的项目中或改变文本变得很困难。

字形合成的早期研究主要集中在轮廓的几何建模上,限于特定的字形拓扑(例如,不能应用于装饰性文字或手写字形),不能用于图像输入。随着深度神经网络的兴起,研究人员已经研究了从图像中建模字形的方法。此外,与局部观察一致的人工合成数据是计算机视觉和图形中的一个有趣问题,例如多视图图像生成,完成图像中的缺失区域以及生成 3D 形状。字体数据就是一个提供了纯净的风格和内容的因式分解示例。

有条件生成对抗网络(cGANS)[1] 的最新进展在许多生成应用中取得了成功。但是,它们只在相当专业化的领域才能做到最好,而在一般的或多领域的风格转移中表现的一般。同样,直接用于生成字体时,cGAN 模型会产生重要的人为因素。例如,鉴于以下五个字母:

有条件生成对抗网络模型在生成具有相同样式的 26 个字母中表现的并不成功:


适用于少数字体样式转换的多内容生成对抗网络


我们没有为所有可能的字体训练单一网络,而是设计了多内容的 GAN 体系结构 [2],为每个观察到的字符集重新定制了一个神奇网络(只有少数观察到的字型)。该模型考虑沿着网络层的频道和风格(即字形装饰)的内容(即,A-Z 字形)将给定的字形的风格转移到未看到的字形的内容。多内容的 GAN 模型由一个堆叠的 cGAN 架构组成,用于预测粗略的字形形状,以及一个装饰网络来预测最终字形的颜色和纹理。第一个称为 GlyphNet 的网络预测了字形蒙版,而第二个网络称为 OrnaNet,用于对来自第一个网络的生成的字形进行颜色和装饰。每个子网络都遵循有条件的生成对抗网络(cGAN)体系结构,该体系结构因其特有的雕刻字形或装饰预测目的而修改。

网络架构


下面是 GlyphNet 的示意图,用于从一组训练字体中学习字体流形的一般形状。GlyphNet 的输入和输出是为每个字母分配通道的字形堆栈。在每次训练迭代中,x1 包含随机选择的 y1 个字形子集,其余输入通道被清零。

通过这种新颖的字形堆栈设计,不同字形之间的相互关系可通过网络渠道获知,以便自动传输其样式。以下图表通过结构相似性(SSIM)度量对随机设置的 1500 个字体示例的这种相关性进行表示。计算每个生成的字形与其基本事实之间的结构相似性时,一次只观察一个字母就可以找到 25 个分布。这些图显示了当字母β被观察到时(蓝色)与其他字母而不是β被给出(红色)时生成字母α的分布α|β。图中显示了两个信息最丰富的给定字母的分布和两个最不明显的信息,分别用于生成 26 个字母。例如,查看图中的第五行,字母 F 和 B 在生成字母 E 时最有建设性,与其他字母相比较,而 I 和 W 是信息量最少的字母。作为其他例子,O 和 C 是用于构造 G 以及用于生成 P 的 R 和 B 的最具指导性的字母。

因此,对于只有少数观察字母的任何想要的字体,预先训练的 GlyphNet 会生成全部 26 个 A-Z 字形。但我们应该如何转移装饰?第二个网络 OrnaNet 采用这些生成的字形,并在经过简单的重塑转换和下图中用 T 表示的灰度信道重复后,使用条件 GAN 体系结构生成富含希望颜色和装饰的输出。OrnaNet 的输入和输出是批量的 RGB 图像,而不是堆栈,其中每个字母的 RGB 通道作为图像重复其由 GlyphNet 生成的相应灰度字形。OrnaNet 中的多个正规化处理程式化字母的掩码与相应字形的偏差。


结果


下面,我们演示使用单个词中给出的字体样式的示例句子。

另外,这里是OrnaNet预测的逐步改进:

参考文献

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

对了,我们招人了,了解一下?

这里有个限时拼团---机器学习之数学基础课程

3 大模块,30 个课时,高校数学系教授带班,100%学员好评。

与 100+同学一起夯实数学基础,走稳机器学习入门第一步!

限时拼团中,点击阅读原文或扫码了解详情~

┏(^0^)┛置顶我,明天见!

登录查看更多
1

相关内容

带条件约束的GAN,在生成模型(D)和判别模型(G)的建模中均引入条件变量y(conditional variable y),使用额外信息y对模型增加条件,可以指导数据生成过程。
专知会员服务
107+阅读 · 2020年5月21日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
 图像内容自动描述技术综述
专知会员服务
85+阅读 · 2019年11月17日
从十篇热门学术论文看计算机视觉的未来
计算机视觉life
6+阅读 · 2019年9月11日
生成对抗网络的最新研究进展
AI科技评论
5+阅读 · 2019年2月6日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
生成对抗网络研究人脸识别领域获进展
中科院之声
8+阅读 · 2018年9月24日
一文综述人脸检测算法(附资源)
数据派THU
7+阅读 · 2018年5月8日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
7+阅读 · 2018年11月6日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
VIP会员
相关资讯
从十篇热门学术论文看计算机视觉的未来
计算机视觉life
6+阅读 · 2019年9月11日
生成对抗网络的最新研究进展
AI科技评论
5+阅读 · 2019年2月6日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
生成对抗网络研究人脸识别领域获进展
中科院之声
8+阅读 · 2018年9月24日
一文综述人脸检测算法(附资源)
数据派THU
7+阅读 · 2018年5月8日
深度学习之图像超分辨重建技术
机器学习研究会
12+阅读 · 2018年3月24日
Top
微信扫码咨询专知VIP会员