【MM 2021】基于自监督区域和时序辅助任务的面部运动单元识别，Self-Supervised Regional and Temporal Auxiliary Tasks for Facial Action Unit Recognition

目前面部运动单元(Action Unit, AU)识别方向面临的一个主要问题是有可靠标签的数据量十分有限，如常用的基准数据集BP4D和DISFA均仅有不到50人的数据，这样稀少的有标签数据成为提升模型性能的一大掣肘。由于AU标定的门槛和难度较高，大规模AU数据库在短期内难以构建，因此近年来越来越多的研究人员将目光转向了利用海量无标签数据进行弱监督学习来提高识别性能。本文从区域性、关联性以及面部肌肉时序运动这些AU独有的特点出发，设计两种新的自监督辅助任务，并与AU识别任务结合起来，形成一个同时基于有标签和无标签数据的端到端的联合训练框架。

我们基于AU区域学习和关联学习构造骨干网络，从CNN输出的全局特征图上切割得到每个AU对应位置上的特征，并使用卷积-池化层得到每个AU的区域特征后，再基于Transformer自适应学习AU关联并将其嵌入区域特征中，最后基于区域和全局特征的预测融合得到识别结果。考虑到AU的局部区域特性和AU之间的关联性，为了从无标签数据中更好地学习局部特征表达和建模AU相关性，本文设计了关键区域补全任务。如图1(a) 所示，首先在原始人脸图像上随机选择一个AU，将其对应的关键区域去掉并用白色填充，然后基于其他AU的区域特征和AU之间的相关性，通过关联建模得到被去掉区域的特征表达，最后利用GAN进行纹理生成。这里我们使用Transformer，利用自注意力机制自适应地从数据中学习AU关联并得到用于恢复的区域特征表达。通过在大量无标签数据上进行该任务，网络能够习得更具表达能力的区域特征以及更完备的AU关联信息。另外，考虑到AU本质上是面部肌肉的动态变化过程，与静态纹理相比，肌肉在时序上的变化信息更有助于判断AU是否出现，为了将这一动态信息嵌入全局特征表达中，本文设计了基于单帧图像的光流估计任务。如图1(b) 所示，首先计算两帧图像之间的TV-L1光流作为监督信息，然后从单帧图像的全局特征出发，通过光流预测网络进行推导，从而让网络从单帧图像中学习判断肌肉的运动趋势。

将上述两个自监督任务与AU识别任务结合在一起，形成了区域和时序辅助任务学习(Regional and Temporal Auxiliary Task Learning, RTATL)框架。RTATL的网络结构如图2所示，其中蓝色和红色虚线内分别为区域补全和光流估计两个任务的对应网络模块，中间为骨干部分。可见在训练过程中基于有标签和无标签数据，所有模块同时被训练；而在测试时虚线内的网络模块被移除，仅使用骨干网络识别AU，因而并没有增加网络在部署时的耗时。

本文提出的方法可有效缓解AU识别模型在训练时对标签的依赖，从图3中的表可见，在加入了本文提出的区域补全和光流估计后，相比原始骨干网络和其他CV中常用的自监督任务，能更显著地提升识别性能。在BP4D和DISFA两个基准数据集上，RTATL均取得了SOTA性能，如图4所示。