深度 | BAIR提出MC-GAN，使用GAN实现字体风格迁移

会员服务 ·

深度 | BAIR提出MC-GAN，使用GAN实现字体风格迁移

2018 年 3 月 27 日 机器之心

选自BAIR

作者：Samaneh Azadi

机器之心编译

参与：Nurhachu Null、路

近日，BAIR 发布博客提出 MC-GAN（Multi-Content GAN），可以快速生成相同风格的字体。

左图：已有的一张电影海报；右图：使用 MC-GAN 生成的新电影名称。

文本是二维设计中的一个显著视觉元素。艺术家投入了大量时间设计在视觉上与其他元素的形状和纹理相兼容的字形。这个过程需要大量劳动，艺术家们通常只设计标题或注释所必需的字形子集，这使得设计完成后文本很难更改，或者很难把看到的字体实例迁移到自己的项目中。

早期字形合成研究集中在轮廓的几何建模上，局限于特定的字形拓扑上（例如，不能应用到装饰字体或者手写体），并且不能与图像输入一起使用。随着深度神经网络的兴起，研究者研究了从图像进行字形建模的问题。另一方面，合成与局部观察相一致的数据在计算机视觉和图形学中是一个有趣的问题，例如，多视角图像生成、补全图像中的缺失区域，以及三维形状的生成。字体数据是一个典型的例子，它提供了文字样式和内容的清晰分解。

条件生成对抗网络（cGANS）[1] 的最新进展在许多生成应用中取得了成功。然而，它们只有在相当特定的领域中才能发挥最佳效果，无法适应通用领域或多领域迁移。类似地，当被直接用来生成字体时，cGAN 模型会生成严重的失真。例如，给定下面五个字母：

条件生成对抗网络模型无法以同一种风格生成 26 个字母：

用于 Few Shot 字体风格迁移的多内容生成对抗网络

我们设计了多内容 GAN 架构 [2] 来为每个观察到的字符集（只具备少量观察到的字形）重新训练定制的魔法网络，而不是为所有可能的字体装饰训练单个网络。该模型考虑沿着信道的内容（即 A-Z 字形）和沿着网络层的样式（即字形装饰），将给定字形的样式迁移到模型未见过的字形的内容。

多内容 GAN 模型包括用于预测粗糙字形形状的堆叠 cGAN 架构和用于预测最终字形颜色和纹理的装饰网络（ornamentation network）。第一个网络称为 GlyphNet，用于预测字形掩码；第二个网络称为 OrnaNet，用于微调从第一个网络生成字形的颜色和装饰。每个子网络遵循条件生成对抗网络（cGAN）的结构，并修改该结构以达到使字形风格化或装饰预测的特定目的。

网络架构

下面是 GlyphNet 示意图，它从一组训练字体中学习字体流形的一般形状。GlyphNet 的输入和输出是字形的堆栈，其中每个字母分配有一个通道。在每个训练迭代中，x_1 包含一个由 y_1 字形组成的随机子集，剩余输入通道被清零。

通过这种新颖的字形堆栈设计，跨网络信道学习不同字形之间的相关性得以实现，并实现风格自动迁移。下图通过结构类似性（SSIM）指标在包含 1500 个字体样例的随机集合上展示了这种相关性。计算每个生成字形与其真实字形之间的结构相似性时，当一次观察到一个字母时，共发现了 25 种分布。这些曲线图显示了当观察到字母 β（蓝色）时生成字母 α 的分布 α|β 与当给出除 β 以外的任何其它字母（红色）时生成字母 α 的分布 α|β。在生成 26 个字母中的每一个字母时，两个信息量最大的给定字母和两个信息量最少的给定字母的分布如图所示。例如，从图的第五行来看，与其他字母相比，字母 F 和 B 在生成字母 E 方面是最有信息贡献的，而 I 和 W 是信息最少的。其他例子中，O 和 C 是构造 G 的最具指导性的字母，R 和 B 是生成 P 的最具指导性的字母。

因此，对于任何仅有几个观察字母的期望字体，预训练的 GlyphNet 要生成全部的 26 个 A-Z 字形。但是我们应该如何迁移装饰呢？第二个网络 OrnaNet 采用这些生成的字形，在简单的整形变换（reshape transformation）和灰度信道重复之后（在下图中用 T 表示），使用条件 GAN 架构生成具备期望颜色和装饰的输出。OrnaNet 的输入和输出是批量的 RGB 图像，而不是堆栈（其中每个字母的 RGB 信道是其对应的灰度字形的重复）。OrnaNet 中的多个正则化器会惩罚风格化字母掩膜与其对应字形形状的偏差。

结果

下面，我们将使用单个单词给出的字体样式演示例句。

此外，以下是 OrnaNet 预测的逐步改进：

参考资料

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

论文链接：https://arxiv.org/abs/1712.00516

GitHub 链接：https://github.com/azadis/MC-GAN

原文链接：http://bair.berkeley.edu/blog/2018/03/13/mcgan/

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

登录查看更多