论文盘点:面部动作编码系统(FACS)识别

2021 年 2 月 25 日 PaperWeekly


©PaperWeekly 原创 · 作者|孙裕道
学校|北京邮电大学博士生
研究方向|GAN图像生成、情绪对抗样本生成


引言

区域学习(RL)和多标记学习(ML)在人脸动作单元(AU)检测领域受到越来越多的关注。由于 AUs 在面部稀疏区域是活跃的,RL 旨在识别这些区域以获得更好的特异性。另一方面,一个关于 AU 相关性的强有力的统计证据表明 ML 是一种自然的方法来模拟探测任务。

FACS介绍
FACS (Facial Action Coding System) 即面部行为编码系统,它特指一组面部肌肉运动状态。本文整理的是第一次出版于 1978 年的 FACS,在2002 年 FACS 又进行了一些实质性的更新。通过使用面部行为编码系统可以对情绪进行分析。本文详细的整理了面部行为编码对应的编号,主要可以分为三大类主要运动单元编码,头部运动单元编码和眼睛运动单元编码,如下图([FC])和([HE])所示。
▲ 图1.主要运动单元编码


图2.头部和眼睛运动单元编码

根据上面的面部运动编码编码可以得出相应的情绪计算公式,具体计算公式如下所示:

▲ 图3.情绪计算公式

如下图两个例子展示了不同的表情相应的 AU 单元的标注,分别是奥巴马开心的表情和詹姆斯伤心的表情。

▲ 图4.AU单元示例图

为了能够更加清楚情绪与 AU 单元的对应关系,下面两幅图列出了人类的七中基本情绪与不同 AU 单元的对应关系。

▲ 图5.情绪与AU单元的对应情况


▲ 图6.情绪与AU单元的对应情况

为了能够更加清楚 AU 单元之间的对应关系,下图列出了不同 AU 单元之间的对应关系。

▲ 图7.AU单元之间的对应情况

需要注意的一点是,对于一种情绪对应着多个 AU 单元,AU 单元分类器是一个多标签的分类器,多标签分类器不同于多分类,如下图所示为一个多标签分类器。Scikit-learn 提供了一个独立的库用于多种标签分类,Scikit-multilearn 库网址为:
http://scikit.ml/api/datasets.html

▲图8.多标签分类器

FACS的多标签探测

论文链接:https://openaccess.thecvf.com/content_cvpr_2016/papers/Zhao_Deep_Region_and_CVPR_2016_paper.pdf

论文时间:

CVPR 2016
3.1 论文贡献
在该论文中作者提出一种了在 AU 领域中深度区域和多标签学习(DRML)的方法。DRML 的一个关键方面是一个新颖的区域层,它使用前馈功能来诱导重要的面部区域,能够学习到的权重来捕捉面部的结构信息。完整的网络是端到端可训练的,并自动学习表示,鲁棒的内在变化的局部区域,最终的网络是端到端的可训练的,并且比替代模型更快地收敛与更好地学习 AU 关系。

如上图所示显示了该论文的主要思想,图(a)中是传统的基于补丁的方法,图(b)是该论文中提出的 DRML 方法,DRML 通过构建人脸重要区域和多个 AUs 之间的关系模型,表现出较好的定位和分类能力。
3.2 模型介绍

下图显示了该论文的 DRML 架构。从左到右依次是对对齐的人脸图像进行标准卷积层滤波,然后是区域层、一个池化层和四个卷积层,三个全连通层,最后是一个多标签交叉熵损失层。颜色说明在每一层产生的 feature map。由于 AUs 的面部外观变化是区域性的和微妙的,所以确保每一层都保留来自前一层的足够的面部信息。

设 AU 个数为 ,样本个数为 ,真实的标签为 表示的是 中的 个元素,预测标签为 。输入层的多目标的 sigmoid 的交叉熵函数:

其中 是一个指示函数。该论文中的训练的模型有大约 5600 万个参数,比AlexNet(6000 万个)少 7%,比 DeepFace 少 53%。
下图所示,论文中提出的区域层包含三个部分:patch 裁剪、局部卷积和身份添加。patch 裁剪模块均匀地将一个 160×160 特征图切片成一个 8×8 的网格。局部卷积模块学习捕捉局部外观变化,学习到的每个 patch 中的权值独立更新。身份添加模块在训练网络的过程中有助于避免消失梯度问题。

如下图所示为 10 个常见 AU 的学习到的显著性 patch 示意图,作者对 DRML 与标准的 ConvNet 进行了比较。所有网络在 BP4D 数据集上进行训练,并使用多标签 sigmoid 交叉熵损失。可以直观的发现,DRML 对相应的 AU 学习了更具体、更集中的区域。
3.3 实验介绍
3.3.1 实验数据集
作者在两个数据集 BP4D 和 DISFA 上评估了 DRML 模型。BP4D 包含 41 名青年在与实验人员互动过程中各种情绪的 2D 和 3D 视频。作者使用了 328 个视频,10 个 AU 编码,最终得到约 140000 有效的人脸图像。对于每个AU,作者为每个视频采样 100 个正帧和 200 个负帧。
DISFA 包含 27 个观看视频片段的被试,并提供 8 个 AU 标注。有大约 13 万张有效的面部图像。作者将AU强度为 级或更高的框架作为正样本,其余为负样本。
图(9)和图(10)分别显示 了 BP4D 的 12 个 AUs 和 DISFA 的 8 个 AUs 的结果。作者从特征表示、多标签学习、区域层效应、区域与多标签联合学习、运行时间五个方面来讨论结果。这一段讨论了学习特征的好处。

▲图9

如上图可知 AlexNet 的 F1-frame 和 AUC 分别提高了约 2% 和 13%,并且 LSVM、AlexNet、LCN、DRML 的特征尺寸分别为 6272、4096、2048 和  2048。事实上,即使学习到的特征是低维的,但是对于 AlexNet、LCN 和 DRML 来说,超过 40% 的学习到的特征是零。可以推断出学习到的特征可以捕获更多的判别性和稀疏性特征,用于检测 AUs。

▲图10

如下图所示,DRML 比 AlexNet 收敛更快,训练损失更低。作者的实验结果中还可以知道 DRML 与真实标签的元素欧式距离为 0.0068,AlexNet 为 0.0077,这说明 DRML 能够学习接近真实统计的 AU 关系。

▲图11


FACS的分区域探测




论文链接:
https://arxiv.org/abs/2002.04023


论文时间:
2020.11

4.1 论文贡献

该论文是关于人脸表情分析类的文章。人脸动作单元检测是人脸表情分析的基础,由 Section 2 可以知道 AU 只发生在人脸的小区域内,好处是关注特定区域有助于消除身份的影响,但也会带来丢失信息的风险。在该论文种作者将人脸分为三个大区域,上、中、下,并根据它发生的位置对 AU 进行分组,并提出了一种基于三个区域的注意网络。该论文的贡献可以分为如下三个部分:

  • 作者提出了一种便于训练的端到端深度学习框架,可以用于 AU 的检测。
  • 作者在提取特征的时候,使用硬掩模和软注意掩模来提取关键特征。
  • 作者使用挤压-激励(SE)模块来学习所有模块中的特征,便于提取全局信息。

4.2 模型介绍

该论文作者提出了一个检测 AU 的框架 TRA-Net,具体结构如下图所示。该模型使用预先训练的 SENet50 用于提取全局特征。SENet50 是一个经典的 Resnet50 网络,它包含挤压激励模块。在卷积层中考虑到了每个通道对模型的贡献情况,要知道许多经典网络框架都没有考虑通道间的关系。
SENet 包含压缩过程,这意味着模型可以将全局空间信息压缩到一个通道中进行描述。给定特征 ,使用全局平均池化函数将空间维数 压缩为 1,具体公式如下所示:
其中, 为特征 的第 个元素, 为特征 的第 个元素。然后将 输入到全连接神经网络中具体公式如下所示:
分别是为神经网络第一层和第二层的权重, 为激活函数。
将输出 扩展为 ,其中同一通道内的每个像素值相等。 可视为信道权重,则输出 具体的计算公式如下所示:
其中 表示按位相乘, 表示按位相加。
在上采样后,采用由三个硬掩模组成的硬注意模块,将 feature map 划分为上、中、下三个区域,并使用位于鼻尖和鼻根中间的标志作为中心点进行类似的变换,中心点总是靠近该标志。
为中心点为 的输入特征映射,硬掩模分别为 ,并且硬掩模与输入特征具有相同的尺寸,数值只包含集成 0 和 1。掩模的计算公式如下所示:
其中, 为掩模特征图, 为扩展的硬掩模。
表示蒙面特征图,分别作为上区域分支、中区域分支和下区域分支的输入。它们被输入到三个连续的软掩膜注意力块中,以便逐步细化注意力并学习更高层次的特性。
该论文中使用的卷积注意力块是(CBAM),最后将扩展的空间掩码与输入的特征映射相乘,得到被掩码的特征映射。由下图可知这是一个多标签分类器,不同的分支负责预测不同区域的标签。
4.3 实验结果

作者比较了 TRA-Net 和其他 AU 检测方法,包括 CMS、LP、DRML、EAC、DSIN、JAA、SRERL、ARL、STRAL。结果如下图所示。对于 DISFA 数据集,TRA-Net 方法比最先进的方法分别提高了 9% 和 28.7%。对于其他地区,TRA-Net 并没有带来显著的改善。

AU1, AU2, AU4 的检测是由上区域分支输出的,这意味着 TRA-Net 对于检测发生在上表面的 AUs 有了显著的改进。由于 DISFA 是一个高度不平衡的数据集,大部分标签都是负的,所以高准确性主要是由于对负样本的正确预测。这证明了该论文提出的方法处理真实数据的能力。

为了评估 TRA-Net 每个模块的有效性,作者对去掉多个模块的模型进行了实验。如下图所示,可以发现注意模块并没有对下面部 AUs 的检测带来任何改善,但 CBAM 模块能够大大的提升性能。

更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
0

相关内容

专知会员服务
43+阅读 · 2021年4月18日
专知会员服务
63+阅读 · 2021年4月11日
专知会员服务
25+阅读 · 2021年4月2日
专知会员服务
50+阅读 · 2020年12月26日
CVPR 2020 论文大盘点-动作检测与动作分割篇
计算机视觉life
12+阅读 · 2020年7月27日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
【优博微展2018】刘昊:基于深度神经网络的人脸关键点检测
清华大学研究生教育
32+阅读 · 2018年12月1日
AI综述专栏 | 步态识别的深度学习综述
人工智能前沿讲习班
29+阅读 · 2018年6月27日
使用迁移学习做动物脸部识别
极市平台
7+阅读 · 2018年1月8日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
深度学习人脸检测和识别系统 DFace | 软件推介
开源中国
7+阅读 · 2017年12月9日
使用深度学习方法实现面部表情包识别
高可用架构
4+阅读 · 2017年7月14日
Arxiv
0+阅读 · 2021年4月23日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月21日
Arxiv
11+阅读 · 2018年1月18日
VIP会员
相关资讯
CVPR 2020 论文大盘点-动作检测与动作分割篇
计算机视觉life
12+阅读 · 2020年7月27日
论文盘点:人脸表情识别解析
PaperWeekly
13+阅读 · 2020年7月26日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
【优博微展2018】刘昊:基于深度神经网络的人脸关键点检测
清华大学研究生教育
32+阅读 · 2018年12月1日
AI综述专栏 | 步态识别的深度学习综述
人工智能前沿讲习班
29+阅读 · 2018年6月27日
使用迁移学习做动物脸部识别
极市平台
7+阅读 · 2018年1月8日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
深度学习人脸检测和识别系统 DFace | 软件推介
开源中国
7+阅读 · 2017年12月9日
使用深度学习方法实现面部表情包识别
高可用架构
4+阅读 · 2017年7月14日
Top
微信扫码咨询专知VIP会员