【速览】IJCV 2022 | 自适应干扰解耦学习的人脸表情识别方法(ADDL)

2022 年 2 月 15 日 中国图象图形学学会CSIG
   


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~











◆ ◆ ◆ ◆

自适应干扰解耦学习的人脸表情识别方法(ADDL)


阮德莲   , 莫榕云   , 严严   , 陈思   , 薛景浩   , 王菡子   
   厦门大学,   厦门理工学院,   伦敦大学学院
IJCV 2022
撰稿人:莫榕云

*通讯作者:严严(yanyan@xmu.edu.cn)

推荐理事:林宙辰
原文标题: Adaptive Deep Disturbance-Disentangled Learning for Facial Expression Recognition
原文链接: https://doi.org/10.1007/s11263-021-01556-7









◆ ◆ ◆ ◆


摘要

人脸表情图像中存在多种干扰因素,如性别、年龄、种族、身份、光照、姿势等引起的变化。这些干扰因素导致面部表情图像呈现较大的类间相似性和类内差异性。并且,不同的人脸表情数据集可能受到不同类型、不同影响程度的干扰。为了解决上述问题,在本文中,我们提出了一种新的自适应干扰解耦学习方法(ADDL),用于人脸表情识别。如图1所示,ADDL包含两阶段训练:首先,利用含干扰标签的大型人脸数据集训练一个干扰特征提取模型DFEM,可以识别多种干扰因素;其次,设计并学习了一个自适应干扰解耦模型ADDM,该模型包含共享子网络   、干扰子网络   和表情子网络   。干扰子网络基于对抗迁移学习可以提取自适应的干扰特征,表情子网络通过多级注意力机制获取到丰富的表情特征。此外,ADDL采用互信息神经估计器来最小化表情特征和干扰特征之间的相关性。所提出的方法在三个室内数据集和四个室外数据集上均展现了优越的表情识别性能。

本文的主要贡献如下:

(1)本文提出了一种新的表情识别算法ADDL。该算法由DFEM和ADDM两个模型组成,可以利用大规模人脸数据集中的干扰标签信息作为辅助,有效抑制无干扰标签的人脸表情数据集中的干扰信息。

(2)本文提出的自适应干扰特征学习模块,能够考虑不同表情数据集的干扰特性,通过对抗迁移学习来自适应地提取干扰特征。

(3)本文发现网络不同层级的输出特征都包含了表情相关的信息,在表情子网络中利用多级注意力机制,提取到更加丰富的表情特征。

(4)本文引入了互信息神经估计器,用于度量表情特征和干扰特征的相关性,从而实现表情特征和干扰特征的显式分离。

图 1 ADDL网络结构示意图
自适应干扰特征学习
 

近年来,为了隐式地减少干扰因素的影响,基于深度学习的表情识别算法[1-3]依赖于现有的有标签数据进行训练,可以提高算法对干扰的鲁棒性。但是有限的训练数据导致算法的性能提升也有限。一些基于干扰解耦的表情识别算法[4-6]利用人脸表情数据集自带的身份或姿态的标签进行训练,但是它们只能解决一到两种干扰因素,导致模型的性能不佳。区别于之前的方法,ADDL在ADDM中设计了一个干扰子网络   和自适应干扰特征学习模块(Adaptive Disturbance Feature Learning,ADFL),利用对抗迁移学习的方式,将大规模人脸数据集中的干扰先验信息与人脸表情数据集的干扰特点相结合,自适应地学习干扰特征。

如图2所示,ADFL的网络结构由自注意力(SA)层、特征融合层和判别器组成。假设将一张无干扰标签的人脸表情图像输入到ADDM和DFEM中,此时,   得到干扰特征   。ADFL的SA层根据   输出   种干扰因素对应的重要性权重(表示为   )。同时,DFEM提取了   种干扰因素的特征,表示为   。其中,   表示第   种干扰因素对应的干扰特征。然后,ADFL的特征融合层将这些干扰特征与对应的权重进行加权融合,得到融合干扰特征   。融合过程可表示为:

接着,通过判别器   与提取   的特征提取器进行对抗训练,可以使   的分布尽可能地接近   的分布。对抗训练可表示为:

图 2 ADFL网络结构示意图

多级注意力机制
 

表情子网络   包含了一组注意力块、池化层和全连接层。因为网络低层提取的特征与边缘信息相关,网络深层提取的特征与显著性区域有关,所以在   中引入了多级注意力机制,以实现网络不同层级特征的互补。多级注意力机制是将网络不同层的输出特征在通道维度上相结合,考虑到不同注意力块输出的特征图在空间维度上大小不同,首先对不同注意力块输出的特征用最大池化层来调整成相同高度和相同宽度的特征图,然后再按通道拼接:

其中,    表示融合的特征图;   表示第   个注意力块输出的特征图;   表示   经过最大池化层输出的特征图。随后,特征图   经过平均池化和全连接层,得到表情特征   。   再经过一个分类层来预测表情类别,分类损失采用交叉熵损失。通过多级注意力机制,我们可以既利用到网络低层的空间特征,又利用到网络深层的语义特征,使得最终提取的表情特征更加丰富。

互信息神经估计器

常规情况下,对干扰特征和表情特征计算Kullback-Leibler(K-L)散度并最小化,可以减小两类特征分布之间的差异性。但是,这种方式不能保证干扰特征和表情特征的分布是不相关的。为了显式地解耦干扰特征   和表情特征   ,本文利用互信息来衡量两类特征之间的相关性,互信息越小表示两类特征的相关性越低。

具体来说,文中引入了互信息神经估计器(MINE)[7],可以估计   和   之间的互信息。假设   和   分别表示   和   的随机变量,从联合分布(   ,    )中抽取   个样本表示为    ,从边缘分布   中抽取   个样本表示为   ,那么互信息损失   可表示为:

其中,   表示带参数   的神经网络。通过最小化互信息损失,可以降低   和   的相关性,达到显式解耦的目的,从而提取到更纯净、更有判别力的表情特征。

实验结果

本文在三个室内数据集和四个室外数据集上对ADDL与当前流行的人脸表情识别方法进对比实验。

表 1 在三个室内数据集上的表情识别性能比较

如表1所示,ADDL在三个室内的表情数据集CK+、MMI和Oulu-CASIA上,识别性能优于其他算法。

如表2所示,ADDL在室外的表情数据集RAF-DB和SFEW上,也具有较高的识别准确率。

表 2 在RAF-DB和SFEW数据集上的表情识别性能比较

如表3所示,在大规模人脸表情数据集Aff-Wild2上,ADDL的性能优于其他基于图像输入的算法。

表 3 在Aff-Wild2数据集上的表情识别性能比较

本文在AffectNet数据集上进行了表情识别和Valence-Arousal估计的实验,结果分别如表4和表5所示。ADDL在AffectNet数据集上的表情识别性能明显由于其他算法,Valence-Arousal估计任务的性能也比较优良。由此证明ADDL具有较强的泛化能力。

表 4 在AffectNet数据集上的表情识别性能比较

表 5 在AffectNet数据集上的Valence-Arousal估计性能比较

本文提出的自适应干扰解耦学习方法ADDL在利用大规模人脸数据集的干扰先验信息的同时考虑了目标人脸表情数据集的干扰特性,自适应地学习干扰特征,并且实现干扰特征和表情特征之间的显式分离,在表情识别任务上具有优越的性能表现。

参考文献

[1] Mollahosseini A, Chan D, Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]//In Proceedings of the IEEE Winter Conference on Applications of Computer Vision, 2016: 1-10.

[2] Liu Y, Zeng J, Shan S, et al. Multi-channel pose-aware convolution neural networks for multi- view facial expression recognition[C]//In Proceedings of the IEEE International Conference on Automatic Face & Gesture Recognition, 2018: 458-465.

[3] Wang K, Peng X, Yang J, et al. Region attention networks for pose and occlusion robust facial expression recognition[J]. IEEE Transactions on Image Processing, 2020, 29(1): 4057-4069.

[4] Meng Z, Liu P, Cai J, et al. Identity-aware convolutional neural network for facial expression recognition[C]//In Proceedings of the IEEE International Conference on Automatic Face & Gesture Recognition, 2017: 558-565.

[5] Zhang F, Zhang T, Mao Q, et al. Joint pose and expression modeling for facial expression recognition[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 3359-3368.

[6] Yang H, Zhang Z, Yin L. Identity-adaptive facial expression recognition through expression regeneration using conditional generative adversarial networks[C]//In Proceedings of the IEEE International Conference on Automatic Face & Gesture Recognition, 2018: 294-301.

[7] Belghazi M I, Baratin A, Rajeshwar S, et al. Mutual information neural estimation[C]//In Proceedings of the International Conference on Machine Learning. 2018: 531-540.




中国图象图形学学会关于征集2022重大科学问题、工程技术难题和产业技术问题的通知
中国图象图形学学会关于组织开展科技成果鉴定的通知

CSIG图像图形中国行承办方征集中

登录查看更多
6

相关内容

AAAI 2022|对抗攻击鲁棒的异质图神经网络
专知会员服务
35+阅读 · 2022年3月28日
中科院自动化所17篇CVPR 2022 新作速览!
专知会员服务
19+阅读 · 2022年3月19日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
专知会员服务
43+阅读 · 2021年4月18日
专知会员服务
55+阅读 · 2021年3月5日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
TPAMI’21 | 跨域人脸表情识别新基准
极市平台
2+阅读 · 2021年12月5日
顶刊TPAMI 2021!跨域人脸表情识别新基准
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
相关VIP内容
AAAI 2022|对抗攻击鲁棒的异质图神经网络
专知会员服务
35+阅读 · 2022年3月28日
中科院自动化所17篇CVPR 2022 新作速览!
专知会员服务
19+阅读 · 2022年3月19日
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
专知会员服务
43+阅读 · 2021年4月18日
专知会员服务
55+阅读 · 2021年3月5日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【KDD2020】自适应多通道图卷积神经网络
专知会员服务
119+阅读 · 2020年7月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员