深度人脸表情识别研究进展

2021 年 3 月 5 日 专知

随着人脸表情识别任务逐渐从实验室受控环境转移至具有挑战性的真实世界环境，在深度学习技术的迅猛发展下，深度神经网络能够学习出具有判别能力的特征，逐渐应用于自动人脸表情识别任务。目前的深度人脸表情识别系统致力于解决以下两个问题：1）由于缺乏足量训练数据导致的过拟合问题；2）真实世界环境下其他与表情无关因素变量（例如光照、头部姿态和身份特征）带来的干扰问题。本文首先对近十年深度人脸表情识别方法的研究现状以及相关人脸表情数据库的发展进行概括。然后，将目前基于深度学习的人脸表情识别方法分为两类：静态人脸表情识别和动态人脸表情识别，并对这两类方法分别进行介绍和综述。针对目前领域内先进的深度表情识别算法，对其在常见表情数据库上的性能进行了对比并详细分析了各类算法的优缺点。最后本文对该领域的未来研究方向和机遇挑战进行了总结和展望：考虑到表情本质上是面部肌肉运动的动态活动，基于动态序列的深度表情识别网络往往能够取得比静态表情识别网络更好的识别效果。此外，结合其他表情模型如面部动作单元模型以及其他多媒体模态，如音频模态和人体生理信息能够将表情识别拓展到更具有实际应用价值的场景。

面部表情是人类表达情感和意图最为有效和普遍的方式之一(Darwin和Prodger，1998；Tian等，2001)。自动人脸表情分析在日常生活中有众多应用，例如社交机器人、医疗服务、疲劳驾驶检测以及其他人机交互系统等。达尔文进化论发现人类脸部的丰富表情是自然选择的结果。在进化初期，古人类具有恐惧等简单表情，它协助增大了瞳孔的通光量，帮助他们在危险时成功逃脱；在社交活动中，人们逐步进化出了微笑、内疚等复杂面部动作来表达内心情感。到了现代，面部肌肉可以组合出成百上千种动作，各种族进化出各异的情感表达方式。著名心理学家Ekman发现，有6类基本表情是全球通用的，各种族间可以相互识别，甚至连与世隔绝的部落和哺乳动物都有着相似的表情。据此，Ekman和Friesen(1971)通过大量的跨文化研究(Ekman，1994)定义了6类基础表情：生气、厌恶、害怕、开心、悲伤和惊讶。由此，学术界普遍通过这6类基础表情的分类研究开始计算机自动表情识别的探索。

根据特征表示的不同，人脸表情识别系统主要分为两大类：静态图片人脸表情识别和动态序列人脸表情识别。在静态识别方法中，仅有单幅图像的空间信息被编码于特征表示中。而在动态识别方法中，输入的人脸表情序列中连续帧之间的时间关系也被纳入考虑范围内。

传统方法大多运用手工设计特征或者浅层学习，例如局部二值模式(local binary pattern，LBP)(Shan等，2009)、三正交平面的局部二值模式(local binary pattern from three orthogonal planes，LBP-TOP)(Zhao和Pietikainen，2007)、非负矩阵分解(nonnegative matrix factorization，NMF)(Zhi等，2011)和稀疏学习(Zhong等，2012)来进行人脸表情识别。2013年起，表情识别比赛如FER2013(the Facial Expression Recognition 2013)(Goodfellow等，2013)和EmotiW(Dhall等，2015, 2016, 2017)从具有挑战性的真实世界场景中收集了相对充足的训练样本，促进了人脸表情识别从实验室受控环境到自然环境下的转换。从研究对象来看，表情识别领域正经历着从实验室摆拍到真实世界的自发表达、从长时间持续的夸张表情到瞬时出现的微表情、从基础表情分类到复杂表情分析的快速发展。

同时，由于芯片处理能力(如GPU单元)的迅猛增长和网络体系结构的精心设计，各个领域的研究开始转向利用深度学习解决各种问题，并且也取得了远超先前方法的识别结果(Krizhevsky等，2012；Simonyan和Zisserman，2014b；Szegedy等，2015)。同样地，深度学习技术也逐渐运用到人脸表情识别中处理各种复杂的干扰因素。图 1展示了自2007年以来人脸表情数据库以及表情识别算法的发展情况, 如DAE(deep autoencoder)、LP(locality-preserving)loss和IACNN(identity-aware CNN)等。

尽管深度学习有着强大的特征表示能力，其在进行人脸表情识别时仍存在一些问题。首先，深度网络需要大量充足的训练数据来避免过拟合问题。然而，现存的人脸表情数据量不足以很好地训练目前在物体识别任务中取得良好效果的较大深度网络结构。其次，由于人物属性的不同，例如年龄、性别、种族背景和表达能力水平(Valstar等，2012)，不同对象间存在较大的差异性。除此之外，姿态、光照和阻挡等变量在不受约束的人脸表情场景中也十分常见。这些因素通常非线性地与人脸表情耦合在一起，从而加强了对利用深度网络来解决较大类内差距以及学习具有高效表情判别能力特征的需求。