人工智能：长相越「娘」颜值越高

2019 年 2 月 18 日 全球人工智能

作者：Xudong Liu,Tao Li等来源:arXiv,机器之心等

人工智能技术已被广泛应用于照片/视频美颜和颜值打分上了，但其内在的评分机制使用的还是人类制定的规则，基础来自于一些心理学和生理学研究。如果让 AI 自行理解人类颜值的意义，我们会不会得到更好的效果？

最近，来自 ObEN 的研究人员就对 AI 眼中的「美」进行了研究，人工智能的判断看起来印证了一些学派的理论：长相越女性化颜值越高；在发色方面，男性黑发最好、女性金发最好。

值得一提的是，ObEN 是一家位于硅谷的华人创业公司，前一阵还因在春晚推出虚拟主持人而名噪一时。

图 1：在每个图像对中，哪张（左或右）更有吸引力？模型提取与吸引力相关的正面/负面特征，并在不同的身份之间合成特定的高级面部特征。在每个示例中，左边是原始图像，右边是加工后的图像（从左到右：小鼻子/大鼻子，男性化/女性化，未化妆/已化妆，年轻/年长）。研究者通过用户研究进一步调查和验证了美貌的定义。

人们的颜值对于社会活动的很多方面都有重要影响，从两性选择到招聘，再到社会交往过程中，颜值都是决定性的因素之一。面部更具吸引力的人可以获得更多的约会机会，而与他们约会的人也可以获得更多的满足感。社会对于美的追求正变得愈发极端，缺乏吸引力的人可能会面临压力。Cash 等人的研究表明，吸引力更高的人更可能找到工作，犯罪嫌疑人的颜值甚至能影响到法官的决定。

几个世纪以来，对于面部美的研究引起了心理学家、哲学家和艺术学家的兴趣，其中大多数人关注人类的感知。美是什么？心理学家通过调查各种因素来试图回答这个问题。从对称和平均，到人格，再到两性异形，各种理论不一而足。

尽管此事已在心理学界有了广泛的研究，但计算机对于美会有什么样的理解？随着数码相机和社交媒体的普及，图像在社会中有了更多应用，各种美颜技术层出不穷，其中大多数依赖于过去的心理学发现。其中的主要思想是分析低级几何面部特征（如形状比、对称性、纹理），然后应用机器学习算法如支持向量机、K-近邻（K-NN）进行图像分类和美颜预测。也有算法以提取局部二值模型（LBP）和 Gabor 等特征的监督方式训练自动评分器，在训练内容中，对于美的评分是由人工评出的。

图 2：本文方法概览。

本文没有使用基于心理学发现的低级面部几何特征，而是提出了一种关于面部特征（如眉毛形状、鼻子大小、头发颜色）与面部吸引力之间相关性的新研究。该研究受到 Leyvand 等人的启发，他们认为高级面部特征在美貌评估中起着重要作用。本文的研究受到大数据爆炸和深度学习模型前景的驱动。如图 2 所示，研究者首先部署了一个深度卷积神经网络来进行面部特征评估。然后根据两个含有真实图像的大型数据集研究高级面部特征和美貌之间的相关性，再根据统计结果选择与美貌相关的面部特征。研究者进一步将其结果与心理学发现联系起来，并讨论其异同。最后，将上述挑选的面部特征与生成对抗网络相结合，以生成美化后的图像。美化图像展示出吸引人的效果，验证了本文研究以及之前心理学研究的准确性。

本文主要贡献如下：

使用在两个标有颜值分数的大型真实数据集上训练的深度 CNN 来提取面部特征。
首次提出用定量方法客观地分析美貌和面部特征之间的相关性，并根据统计数据选择具有吸引力的特征。
验证了现有的关于美的心理学研究，并发现了新的模式。
将这些面部特征与 GAN 相结合，生成了美貌的图像，然后对 10000 个数据点的用户进行调查，以验证结果。

论文：Understanding Beauty via Deep Facial Features

论文地址：https://arxiv.org/abs/1902.05380

摘要：关于美的概念，哲学家和心理学家已经争论了几个世纪，但大多数定义是主观和形而上的，缺乏准确性、普遍性和可扩展性。在本文中，我们基于大数据提出了一种关于挖掘面部属性的美貌定义的新颖研究，试图以定量的方式客观地描述美。我们首先部署深度卷积神经网络来提取面部特征，然后在两个标有颜值分数的大型数据集上研究这些特征与吸引力之间的相关性。我们不仅通过统计显著性检验发现了美的秘密，我们的研究结果也完全符合现有的心理学研究，例如小鼻子、高颧骨和女人味比较有吸引力。我们通过生成对抗网络进一步利用这些高级表征来创建原始图像。合成后的美貌效果引人注目，并且通过对 10，000 个数据点的用户进行调查得到了统计学上令人信服的验证。

3 方法

3.1 数据预处理

在深度训练之前，数据预处理是更好地进行训练所必需的。图像归一化具有四个步骤：面部检测、特征点（landmark）检测、对齐、剪切。局部约束模型（CLM）用于面部检测和特征点检测。之后如图 4 所示，提供了 68 个特征点。给定特征点标定，眼部位置被设定为 [92, 129]（左眼中心）和 [163, 129]（右眼中心），用于对齐，然后将图像大小裁剪为 256 × 256。

图 4：图像预处理和相应的属性结果示例

除了图像预处理，还要对颜值分数进行归一化处理，因为当每张图像有多人评分时，会产生一些不一致。所以本文采用多数投票再取平均数的方法来产生最终评分。

3.2 特征训练

在本文中，我们采用 GoogleNet 架构来进行特征训练。该网络具有 22 层（仅计算了具有参数的层），9 个 Inception 模块。GoogLeNet 在 2014 年的 ImageNet 大型视觉识别挑战赛（ILSVRC14）中实现了分类和检测的最佳水平。该架构擅长使用 1×1 卷积核进行降维，可以在节省计算资源的同时增加网络深度，被称为 Inception，如图 5 所示。不同于 ImageNet 分类挑战赛，其中每个图像仅作为一个类别，在本文的训练中，每个图像及其 40 个特征被输入深度架构，最终输出是与真实值（40 个标签）对应的多个分类。

图 5：经过降维处理的 Inception 模块。

总的训练过程如图 3 所示。首先，将图像和特征标签输入至深度 CNN 并抽取特征，然后用全连接层进一步处理这些特征。最后训练 40 个随机森林分类器进行特征评估，最后输出特征结果。

图 3：特征训练概览

3.3 相关性分析

在得到归一化的美貌得分和 40 个面部特征之后，下一步是探索美的奥秘——面部特征与美貌程度之间的相关性。

3.4 特征迁移

为了定量评估具备/不具备某种特征的美貌程度差别，我们部署了一个 GAN 来迁移面部特征。GAN 被定义为一个极小极大博弈，其目标函数如下：

训练生成器 G 欺骗判别器 D，判别器 D 则尝试区分生成样本 G(x, c) 和真实样本 x。

在实践中，成功地训练 GAN 是一项非常困难的任务，不过现在已经有了许多改进。StarGAN 已经在图像到图像的迁移任务中取得了令人印象深刻的进展。在训练中除了使用对抗损失外，还采用了特征分类 L_cls 和图像重建损失 L_rec，实现了当前最先进的特征迁移性能。完整目标函数如下：

本研究中的面部特征迁移所用架构与《Stargan: Unified generative adversarial networks for multidomain image-to-image translation》中的一致。

4 实验

表 2：在 Beauty 799 数据集中测试的重要特征。

图 6：10K US 数据集中的相关性分析，包括女性分类下的子类，男性分类下的子类和整个数据集。

表 3：在组合数据集中测试的重要特征。

图 7：用户研究结果验证了本文的假设和相关分析。

5 分析判断

5.3 美丽的女性特征

我们不仅能够通过数据统计得出关于美的客观定义，而且还有一个有趣的发现，女性化特征被认为比男性化特征更有吸引力。从心理学的角度来看，有大量证据表明女性特征增加了不同文化中男性和女性面孔的吸引力。浓妆和口红等特征通常被认为是女性的特征。因此，从我们的统计结果和心理学来看，这些属性对吸引力有积极的影响。此外，有一个名为男性化（Male）的性别属性，从我们的深度模型来看，这个预测在 CelebA 中是令人信服的（95 % 的准确率）。然而，我们发现了一个有趣的结果，一些来自 Beauty 799 数据库的女性图像在模型结果中被估计为男性，这表明这些女性有一些男性特征（男性倾向），并且她们被认为不太有吸引力。此外，根据相关性分析，这种男性化属性会降低吸引力。这个例子从反面证明了女性特征可以增加吸引力。

5.4 不一致以及一致的定义

正如之前所提到的，两个数据集之间有一些本质的区别。因此，得到的定义结果存在一些不一致。我们发现：美国成年人更偏爱黑发和金发，这和 Beauty 799 得出的结果是相悖的。这种现象可能是环境影响所致，不同文化中的人可能对头发颜色和体型有着不同的偏爱。除了数据库之间的不一致之外，我们还发现黑发和浓眉是具有吸引力的男性特征，但女性并非如此，黑发和浓眉对女性的美有消极影响。另一个不一致是金发对于男性和女性美的影响。金发是女性具有吸引力的特征，放在男性身上却并非如此。

尽管在 [21, 41] 中存在一些不一致，但其中对于美的定义也存在一些共同之处。表 3 总结了两个相对较大的数据集中对美发挥正面或负面作用的一致特征。例如，浓妆、高鼻梁、涂口红等特征都会提升吸引力（美）。相对的，大鼻子、偏男性化（指女性）、嘴唇微张则会对吸引力产生负面影响。

广告 & 商务合作请加微信：kellyhyw

投稿请发送至：mary.hu@aisdk.com

登录查看更多