目前面部运动单元(Action Unit, AU)识别方向面临的一个主要问题是有可靠标签的数据量十分有限,如常用的基准数据集BP4D和DISFA均仅有不到50人的数据,这样稀少的有标签数据成为提升模型性能的一大掣肘。由于AU标定的门槛和难度较高,大规模AU数据库在短期内难以构建,因此近年来越来越多的研究人员将目光转向了利用海量无标签数据进行弱监督学习来提高识别性能。本文从区域性、关联性以及面部肌肉时序运动这些AU独有的特点出发,设计两种新的自监督辅助任务,并与AU识别任务结合起来,形成一个同时基于有标签和无标签数据的端到端的联合训练框架。

我们基于AU区域学习和关联学习构造骨干网络,从CNN输出的全局特征图上切割得到每个AU对应位置上的特征,并使用卷积-池化层得到每个AU的区域特征后,再基于Transformer自适应学习AU关联并将其嵌入区域特征中,最后基于区域和全局特征的预测融合得到识别结果。考虑到AU的局部区域特性和AU之间的关联性,为了从无标签数据中更好地学习局部特征表达和建模AU相关性,本文设计了关键区域补全任务。如图1(a) 所示,首先在原始人脸图像上随机选择一个AU,将其对应的关键区域去掉并用白色填充,然后基于其他AU的区域特征和AU之间的相关性,通过关联建模得到被去掉区域的特征表达,最后利用GAN进行纹理生成。这里我们使用Transformer,利用自注意力机制自适应地从数据中学习AU关联并得到用于恢复的区域特征表达。通过在大量无标签数据上进行该任务,网络能够习得更具表达能力的区域特征以及更完备的AU关联信息。另外,考虑到AU本质上是面部肌肉的动态变化过程,与静态纹理相比,肌肉在时序上的变化信息更有助于判断AU是否出现,为了将这一动态信息嵌入全局特征表达中,本文设计了基于单帧图像的光流估计任务。如图1(b) 所示,首先计算两帧图像之间的TV-L1光流作为监督信息,然后从单帧图像的全局特征出发,通过光流预测网络进行推导,从而让网络从单帧图像中学习判断肌肉的运动趋势。

将上述两个自监督任务与AU识别任务结合在一起,形成了区域和时序辅助任务学习(Regional and Temporal Auxiliary Task Learning, RTATL)框架。RTATL的网络结构如图2所示,其中蓝色和红色虚线内分别为区域补全和光流估计两个任务的对应网络模块,中间为骨干部分。可见在训练过程中基于有标签和无标签数据,所有模块同时被训练;而在测试时虚线内的网络模块被移除,仅使用骨干网络识别AU,因而并没有增加网络在部署时的耗时。

本文提出的方法可有效缓解AU识别模型在训练时对标签的依赖,从图3中的表可见,在加入了本文提出的区域补全和光流估计后,相比原始骨干网络和其他CV中常用的自监督任务,能更显著地提升识别性能。在BP4D和DISFA两个基准数据集上,RTATL均取得了SOTA性能,如图4所示。

作者:严经纬、王晶晶、李强、王春茂、浦世亮

单位:海康威视研究院

邮箱:

yanjingwei@hikvision.com

wangjingjing9@hikvision.com

liqiang23@hikvision.com

wangchunmao@hikvision.com

pushiliang.hri@hikvison.com

论文:

https://dl.acm.org/doi/10.1145/3474085.3475674

2

相关内容

CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
16+阅读 · 2022年4月18日
【AAAI2022】跨域少样本图分类
专知
1+阅读 · 2022年1月22日
【速览】NeurIPS 2021 | 双流图像表征网络(Dual-stream Network)
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
自监督视觉特征学习
专知
0+阅读 · 2021年11月1日
再介绍一篇最新的Contrastive Self-supervised Learning综述论文
夕小瑶的卖萌屋
1+阅读 · 2021年9月22日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Simple and Effective Unsupervised Speech Synthesis
Arxiv
2+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
12+阅读 · 2019年2月28日
VIP会员
相关VIP内容
CVPR 2022 Oral | 基于熵筛选的半监督三维旋转回归
专知会员服务
16+阅读 · 2022年4月18日
相关资讯
【AAAI2022】跨域少样本图分类
专知
1+阅读 · 2022年1月22日
【速览】NeurIPS 2021 | 双流图像表征网络(Dual-stream Network)
中国图象图形学学会CSIG
0+阅读 · 2021年12月20日
自监督视觉特征学习
专知
0+阅读 · 2021年11月1日
再介绍一篇最新的Contrastive Self-supervised Learning综述论文
夕小瑶的卖萌屋
1+阅读 · 2021年9月22日
将对比学习扩展到监督式场景
TensorFlow
1+阅读 · 2021年7月20日
度量学习中的pair-based loss
极市平台
65+阅读 · 2019年7月17日
《pyramid Attention Network for Semantic Segmentation》
统计学习与视觉计算组
44+阅读 · 2018年8月30日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员