GANimation：基于解剖结构的面部表情转换（附GitHub地址）

2018 年 7 月 30 日 论智

来源：GitHub

编译：Bot

编者按：说到GAN在人脸上的应用，就不得不提起去年高丽大学、Clova AI Research、新泽西大学和香港科技大学共同发表的一项成果：一个可以在多域图像间实现图对图转换的统一生成对抗网络——StarGAN。它不仅能调整图像中的发色、肌理、肤色、性别，还能合成各种生动有趣的表情。而就在上周，美国的一群研究人员基于解剖学上的肌肉运动方式，提出了一种转换表情的新方法。

近年来，生成对抗网络（GAN）已经在面部表情合成任务中取得了令人印象深刻的结果，这为包括电影工业、摄影、时尚和电子商务在内的商业领域打开了一扇新大门：如果GAN真的能实现表情的自然转换，企业、制片方不仅能进一步压缩成本，还能加快产品的产出效率。

在这个背景下，去年提出的StarGAN无疑是目前最成功的架构，它只用一对生成器和判别器就能实现多个域之间的映射，且能对各个域的图像进行有效训练。虽然论文较以往成果有巨大进步，也显示出了通用性，但它只是把以前的2个域扩展到现在的k个域，模型转换效果还是受数据集注释局限。

为了解决这个问题，近日，西班牙IRI和美国俄亥俄州立大学的研究人员提出了一种基于动作单元（AU）的新型GAN，它在连续流形中描述了解剖学意义上的人类面部表情。经过无监督训练后，只需控制每个AU的激活程度，并选取其中几个进行组合，模型就能实现生动形象的表情转换。

模型架构和方法

首先，我们来看这个GAN的具体构造。

对于任意表情，模型把输入的RGB图像定义为I_y_r∈R^H×W×3。通过把复杂表情解构成一个个动作单元（AU），我们可以用一组N个AU y_r = (y₁, . . . , y_N)^T对每个表情编码，其中y_n已经经过归一化处理，取值在0到1之间。有了这种连续表征，我们就可以在不同表征之间进行自然插值，从而渲染各种逼真、平滑的面部表情。

简而言之，我们的目标是学习一个映射M，它能把输入图像I_yr转换成基于目标AU y_g的输出图像I_yg。

上图是GANimation的整体架构，可以发现，它主要由两部分组成：一个生成器G，一个判别器D。其中生成器负责回归注意力（G_I）和生成色彩掩模（G_A），判别器负责鉴别生成图像逼真与否（D_I），并检查表情是否连贯（yˆ_g）。

既然重点是AU，那么模型的一个关键自然是专注于图像中那些负责合成新表情的区域，换言之，我们需要弱化头发、眼镜、帽子或珠宝等其他元素对模型的干扰。为了实现这一点，如上图所示，研究人员在生成器中引入注意力机制，把输入图像分成注意力掩模A和RGB掩模C，完成表情转换后再合并渲染。

什么是AU

关于什么是AU，文中并没有仔细说明，所以这里我们来看它重点引用的另一篇论文。

这篇名为Compound facial expressions of emotion的论文来自俄亥俄州立大学哥伦布分校，它和GANimation有一个共同的作者：Aleix M. Martinez。根据他们的研究，人类的不同面部表情可能存在一定相关性，比如当一个人感到惊喜时，他的面部肌肉群运动其实结合了愉悦、惊讶两种基础情绪的肌肉运动方式。

基于这个发现，他们提出了一种名为复合情感类别的重要表达式。通过采集230名人类受试者的面部表情样本图像，并进行观察实验，最终他们定义了21种不同表情类别，其中的差异可以被计算机用来区分不同人类情感。