This paper proposes a self-supervised approach to learn universal facial representations from videos, that can transfer across a variety of facial analysis tasks such as Facial Attribute Recognition (FAR), Facial Expression Recognition (FER), DeepFake Detection (DFD), and Lip Synchronization (LS). Our proposed framework, named MARLIN, is a facial video masked autoencoder, that learns highly robust and generic facial embeddings from abundantly available non-annotated web crawled facial videos. As a challenging auxiliary task, MARLIN reconstructs the spatio-temporal details of the face from the densely masked facial regions which mainly include eyes, nose, mouth, lips, and skin to capture local and global aspects that in turn help in encoding generic and transferable features. Through a variety of experiments on diverse downstream tasks, we demonstrate MARLIN to be an excellent facial video encoder as well as feature extractor, that performs consistently well across a variety of downstream tasks including FAR (1.13% gain over supervised benchmark), FER (2.64% gain over unsupervised benchmark), DFD (1.86% gain over unsupervised benchmark), LS (29.36% gain for Frechet Inception Distance), and even in low data regime. Our code and models are available at https://github.com/ControlNet/MARLIN .


翻译:本文提出了一种自我监督的方法来学习视频中通用的人脸表示,能够在各种人脸分析任务之间进行转移,例如面部属性识别(FAR),面部表情识别(FER),DeepFake检测(DFD)和嘴唇同步(LS)。我们提出的框架名为MARLIN,是一种人脸视频遮罩自动编码器,可以从大量可用的非注释网络爬取人脸视频中学习高度鲁棒和通用的人脸嵌入。作为一项具有挑战性的辅助任务,MARLIN可以从密集掩蔽的人脸区域(主要包括眼睛、鼻子、嘴巴、唇部和皮肤)中重构面部的时空细节,以捕捉局部和全局方面的信息,从而有助于编码通用和可转移的特征。通过各种不同的下游任务的实验,我们展示了MARLIN作为优秀的人脸视频编码器和特征提取器,能够在各种下游任务中保持相对一致的表现,包括FAR(相对于监督基准提高了1.13%),FER(相对于无监督基准提高了2.64%),DFD(相对于无监督基准提高了1.86%),LS(Frechet Inception Distance提高了29.36%),甚至在低数据情况下也能达到很好的效果。我们的代码和模型可在 https://github.com/ControlNet/MARLIN 中获得。

0
下载
关闭预览

相关内容

用于识别任务的视觉 Transformer 综述
专知会员服务
70+阅读 · 2023年2月25日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
给我1张图,生成30秒视频!|DeepMind新作
新智元
0+阅读 · 2022年8月19日
KDD 2019论文解读:异构信息网络上的对抗生成学习
云栖社区
22+阅读 · 2019年8月21日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
14+阅读 · 2022年5月6日
Arxiv
27+阅读 · 2021年11月11日
Arxiv
18+阅读 · 2021年6月10日
Arxiv
14+阅读 · 2021年3月10日
VIP会员
相关VIP内容
用于识别任务的视觉 Transformer 综述
专知会员服务
70+阅读 · 2023年2月25日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员