BAIR最新研究：用GAN实现字体风格迁移

2018 年 3 月 14 日 论智 Bot

来源：BAIR

编译：Bot

编者按：文字是二维设计中的一种突出视觉艺术。为了设计出在元素形状、纹理等方面都能与图片融为一体的字形，设计师们往往要耗费大量时间，而且是个过程是劳动密集型的——他们只设计标题和注释所需的字词，一旦设计完成，你不能轻易更改文本，其他人也无法直接把已有的字体样本用于合理用途。

为了改变这种情况，近日，伯克利的BAIR实验室发布了一篇新论文，介绍了一个可以生成多种风格字符的GAN。以下是论智对该研究的翻译：

左：电影海报；右：MC-GAN生成的“新”电影片名

字形合成的早期研究主要集中在对轮廓的几何建模上，它只限于特定的字形风格（如不能被用来生成装饰、手写体文字），不允许把图片作为输入。随着深层神经网络逐渐兴起，如今研究人员们已经开始探究从图像中建模字形的方法。同时，这一问题也引起了计算机视觉、图形学从业者的极大兴趣，因为字体的合成数据和观察数据可被作为包含风格特征、内容干净的样本数据，用于多视角图像生成、图像修复、图像3D建模等其他研究。

近期，一个名为有条件生成对抗网络（cGANS）的新研究在许多应用中取得了不错的成果[1]，但它只能被用于非常小的专业领域，无法做到在一般或多领域内实现风格迁移，也就是没有通用化。以字形为例，cGAN模型在生成字体时会出现明显的伪像。下图是5个风格统一的英文字母：

训练cGAN学习了上述风格后，我们让它生成拥有类似风格的26个字母，结果令人失望：

适用于少数字体风格迁移的Multi-Content GAN

不同于为所有可能的字体风格训练单独的神经网络，我们设计了一个能在只见过少数字形的情况下，为每个观察到的字符集重新定制风格的神经网络——多内容GAN（Multi-Content GAN）[2]。它的基本思路是用通道内的文本（A—Z）和神经网络层中的风格特征，将给定的字形的风格转移给看不见的内容。

Multi-Content GAN由多个cGAN模型堆叠而成，其中一个cGAN负责预测粗略的字形形状，一个负责预测字符最终的颜色和纹理。第一个称为GlyphNet的网络预测了字形蒙版，而第二个网络称为OrnaNet，用于对来自第一个网络的生成的字形进行着色和装饰。每个子网络都遵循cGAN的体系架构，部分架构会因修饰字形、着色预测等特定目的被调整。

论智注：以上文中的tower自省为例，BAIR希望自己的模型能根据这5个字符生成26个字母字形，并在这个基础上进行风格迁移。因此论文解决的难点有两个：一是如何建立字母间的关联性，二是实现多领域风格迁移。

网络架构

下面是GlyphNet从训练数据集中学习字体风格的示意图。GlyphNet的输入和输出是为每个字母分配通道的字形堆栈，在每轮训练迭代中，x₁从y₁中随机抽取一组字形子集，并把剩下的输入通道清零。

通过这种新颖的字形堆栈设计，神经网络能根据各通道信息判断不同字形之间的相互关系，从而实现自动风格迁移。下图是模型从1500个字形样本中学到的相关性，它们已经经结构相似性（SSIM）标准进行了量化。

在计算每个生成字形与其相对应的基础字形之间的SSIM时，我们一次只观察一个字母就找到了25个分布。可以看到，当模型生成的字形为α时，蓝色部分是给出β时α|β的分布，红色部分则是没有观察到β时α|β的分布。图中给出了两个重合度最高的给定字母分布和两个重合度最低的分布，以第五行为例，与其他字母相比较，字母F和字母B在生成字母E时贡献最大，而字母I和W包含的信息量则最小。另外，O、C对于生成G，R、B对于生成P都有显著的建设性意义。

因此，即便模型的输入只有几个字母，经过预训练的GlyphNet也能根据这种相关性迅速生成全部的26个字母的字形。那么，我们又该如何实现风格迁移呢？GlyphNet把字母字形输入第二个神经网络OrnaNet时，Multi-Content GAN会对这些数据做一些形状和色彩上的调整，这个步骤在下图中被表示为T，之后OrnaNet再用cGAN生成满足预期的颜色和装饰。

OrnaNet的输入和输出都是批量的RGB图像，而不是通道堆栈，其中每个字母的RGB通道，或者说图像的RGB通道，会被反复填充进GlyphNet生成的相应黑色字形中。OrnaNet中也被添加进了多个regularizer，用于弥补生成字母的掩码与相应字形的偏差。

实验结果

下面是我们实验的输入单个单词生成字体风格的几个案例。

另外，这里是OrnaNet预测的进步过程：

参考文献

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

原文地址：bair.berkeley.edu/blog/2018/03/13/mcgan/

论文地址：arxiv.org/abs/1712.00516

MC-GAN代码：github.com/azadis/MC-GAN