CVPR 2022｜快手联合中科院自动化所提出基于Transformer的图像风格化方法

会员服务 ·

CVPR 2022｜快手联合中科院自动化所提出基于Transformer的图像风格化方法

2022 年 4 月 19 日 PaperWeekly

©作者 | 快手Y-tech

来源 | 机器之心

本文提出了一种基于 Transformer 的图像风格迁移方法，我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域的应用。

论文标题：

StyTr2: Image Style Transfer with Transformers

论文链接：

https://arxiv.org/abs/2105.14576

代码链接：

https://github.com/diyiiyiii/StyTR-2

图像风格化是一个有趣且实用的课题，它可以使用参考的风格图像来呈现内容图像，多年以来在学术界被广泛研究，并已在包括短视频领域在内的业界得到大规模的落地应用。例如，移动互联网用户可以通过快手主站、极速版、一甜相机和快影等一系列 APP，体验包括手绘、水彩、油画和 Q 版萌系风格在内的各种人像风格化特效。

传统的基于纹理合成的风格化方法可以生成生动的风格化图像，但由于包含笔画外观和绘画过程的建模，计算起来很复杂。随后，研究人员聚焦于基于卷积神经网络的神经风格化。基于优化的风格化方法参照内容图像与风格图像，不断迭代优化生成结果。按照编码器 - 风格化模块 - 解码器的设计，任意风格化方法利用端到端的方式，根据风格图片调整内容图片的二阶统计信息，可以高效地生成风格化结果。但是，由于对内容和风格之间关系的建模能力有限，这些方法在很多情况下不能取得令人满意的结果。为了克服这一问题，一些研究方法应用自注意机制来改进风格化结果。

目前主流的的风格化方法一般利用卷积神经网络学习风格和内容表示。由于卷积运算的感受野有限，只有卷积网络比较深，才能捕获图片的长程依赖关系。但是，网络深度的增加会导致图片特征分辨率降低和细节的丢失。细节的缺失体现在风格化结果中就是会影响内容结构的保存和风格模式的显示。

如图 1(a) 所示，基于卷积神经网络的风格化算法在特征提取过程中忽略了一些细节，网络浅层关注局部特征，深层通过整合局部信息才能获取全局信息。此外，有研究工作发现典型的基于 CNN 的风格化方法获取的内容表示是不准确的，会导致内容泄漏的问题: 经过几轮重复的风格化操作，风格化结果中几乎不能保留任何原始输入的内容结构信息。

▲ 图1 (a) 基于 CNN 的风格化中间层可视化结果；(b) 我们的方法中间层可视化结果

随着 Transformer 在自然语言处理 ( Natural Language Processing, NLP) 领域的成功，基于 Transformer 的架构已被用于各种视觉任务。Transformer 应用于计算机视觉的优点有两个：首先，在自注意机制的帮助下，Transformer 可以很容易地学习输入的全局信息，从而在每一层都可以获得对输入的整体的理解; 其次，Transformer 是一种关系建模的结构，不同层可以提取相似的结构信息 (如图 1(b) 所示)。因此，Transformer 具有较强的特征表示能力，可以避免特征提取过程中细节的丢失，并能很好地保存生成的结构。

本文针对基于 CNN 的风格化方法存在的内容表达存在偏差的问题，提出了一种新颖的图像风格化算法，即 StyTr^2。

方法

为了利用 Transformer 捕获长期依赖关系的能力来实现图像风格化，本文设计了图 2 中结构，模型主要包括三部分：内容 Transformer 编码器，风格 Transformer 编码器和 Transformer 解码器。内容 Transformer 编码器和风格 Transformer 编码器分别用来编码内容域和风格域的图片的长程信息，这种编码方式可以有效避免细节丢失问题。Transformer 解码器用来将内容特征转换为带有风格图片特征的风格化结果。

▲ 图2 网络结构

此外，本文针对传统位置编码提出两个重要问题。第一，对于图像生成任务，在计算 PE（位置编码）时，是否应该考虑图像语义? 传统的 PE 是根据按照逻辑排序的句子来设计的，而图像序列是根据图像内容语义来组织的。假设两个图像补丁之间的距离为 d(.,.) 。

如图 3(a) 右边部分所示，d((0 , 3 ), (1 , 3 )) (红色和绿色块) 之间的差异与 d(( 0 , 3 ), (3 , 3 )) (红色和青色块) 之间的差异应该是相似的，因为风格化任务要求相似的内容补丁有相似的风格化结果。第二，当输入图像尺寸呈指数级增大时，传统的正弦位置编码是否仍然适用于视觉任务? 如 3(a) 所示，当图像大小发生变化时，相同语义位置的补丁 (用蓝色小矩形表示) 之间的相对距离会发生显著变化，这不适合视觉任务中的多尺度输入要求。

▲ 图3 CAPE计算示意图

为此，本文提出了内容感知的位置编码 (Content-Aware Positional Encoding，CAPE)，它具有尺度不变且与内容语义相关的特点，更适合于风格化任务。

结果展示

如图 4 所示，与 state-of-the-art 方法相比，StyTr^2 利用了基于 Transformer 的网络，具有更好的特征表示能力，捕获输入图像的长期依赖关系，并避免丢失内容和风格细节。因此，本文方法的结果可以实现高质量的风格化，使结果同时保持良好的内容结构和丰富的风格模式。

▲ 图4 风格化结果比较

图 5 展示了第 1 轮和第 20 轮的风格化结果。首先，比较第一轮的风格化结果。基于 CNN 的方法生成的结果内容结构受到了不同程度的破坏，但本文的结果仍然具有清晰的内容结构。虽然 ArtFlow 生成的结果保持了清晰的内容结构，但风格化的效果并不令人满意 (例如，边缘缺陷和不合适的样式模式)。其次，随着风格化次数的增加，基于 CNN 的方法生成的内容结构趋于模糊，而我们的方法生成的内容结构仍然是清晰的。