基于深度模型的人脸对齐和姿态标准化 - 专知

会员服务 ·

0

基于深度模型的人脸对齐和姿态标准化

2018 年 3 月 13 日 计算机视觉战队 Edison

美好世界

Wonderful world

相隔41天，Edison又回来了，由于自己和团队的事情比较多，没有在我们的“计算机视觉战队”平台花费过多的精力，今天我来和大家分享一些人脸的故事。之前接触了一些人脸领域的知识，现在人脸相关的技术无处不在（例如机场的认证合一，人脸支付等技术），在这先和大家说一点生活中观察的一些事——记得2月中旬在哈尔滨机场，进行安检的时候，我特意观察了机场人脸检测的系统，令我震惊不已，因为我看到的是检测效果差，Bounding Box的位置若你观察后你会发现Recall一定很差，但是，重点来了，他能把人脸特征提取和身份证比对，一般都通过，是不是很神奇。如果有兴趣的朋友，可以下次过这种认证合一的时候，仔细观察一番，你如果有一点的硬件设备和软实力，也是可以做到一样乃至更好的效果。

今天的小故事将完了，开始说说大故事，也就是今天所要说的人脸对齐及人脸姿势标准化，希望有兴趣的您继续阅读下去，谢谢！

1

历史

ORL, Extended Yale B: 1990~2012 (<50 persons)

nIdentification rate: 95%~99% （SRC and variants [J.Wright et al, 2008]）

FERET: 1994~2010 (1196 persons, 2~5 ipp)

nIdentification rate: 94% (for Dup.I and Dup.II) （LGBP + B-LDA [S.Xie, S.Shan, X.Chen, IEEE T IP10]）

FRGC v2.0: 2004~2012 (~500 subjects, >50ipp)

nVerification Rate (VR) = 96.1% @ FAR=0.1% （LPQ + LGBP + B-LDA [Y.Li, S.Shan, H.Zhang, S.Lao, X.Chen, ACCV12]）

LFW: 2007~currently (~5749 subjects, 1680>2 ipp)

nVR=94.5% @FAR=1% [Unrestricted, Labeled Outside Data] （DeepID [Y. Sun, X. Wang, and X. Tang, CVPR14]）

nVR=87.0% @FAR=0.1% [Unrestricted, Labeled Outside Data]（DeepFace [Y.Taigman, M. Yang, M.Ranzato, L. Wolf, CVPR14]）

2

EmotioW 2014 challenge

任务：

将示例音频 - 视频片段分类为七个类别之一（中立，愤怒，厌恶，恐惧，快乐，伤心，惊喜）；

挑战：

接近现实世界的条件（大变化头部姿势，照度，部分遮挡等）。

有挑战性的数据——AFEW * 4.0数据库

从显示接近真实世界的电影中收集的音频视频剪辑

方法：

n图像特征

对齐的人脸图像: 64x64;

特征: HOG, dense SIFT, DCNN.

nDCNN

CaffeNet在CFW数据集上进行训练
Trained over 150,000 face imagesfrom 1520 subjects;
Identitiesare served as supervised label in the deep networks.
架构
3@237x237 >96@57x57 > 96@28x28 > 256@28x28 > 384@14x14 > 256@14x14 > 256@7x7 > 4096 > 1520
最后卷积层的输出作为最终图像特征：256x7x7=12,544

nHOG

Block size: 16x16; stride: 8; # ofblocks: 7x7=49
# of cells per block: 2x2; # ofbins: 9; # of total dims: 2x2x9x49=1764

nDense SIFT

Block size: 16x16; stride: 8; # ofpoints: 7x7=49
# of dims per point: 4x4x8=128; #of total dims: 128x49=6272

结果：

比赛最终结果：

HERML

该实验证明了深度越深，效果越好（但是深到一个阈值界限，应该是有所下降或稳定）

但是DCNN+ HERML (set models)效果更好

现在开始说说人脸对齐的知识：

3

Deep learning for nonlinear regression

Coarse-to-FineAuto-Encoder Networks (CFAN)

人脸对齐：从检测到的脸部预测面部标志

难度：就是一个复杂的非线性映射；

影响因素：大的外观和形状变化（头部姿势、表情、照明、部分遮挡）

动机

n直接应用Stacked Auto-Encoder(SAE)?

可以，但是不是很好，原因：

Easily overfit to small data：

Typically only thousands of images with landmark annotations

nNew ideas – exploiting priors

Features are partially handcrafted
SIFT, shape-indexed
Better initialization
Coarse to fine

网络框架如下：

Pipeline

有兴趣的朋友可以去阅读原文（J. Zhang, S. Shan,M. Kan, X. Chen. Coarse-to-FineAuto-Encoder Networks (CFAN) for Real-Time Face Alignment.ECCV2014 (oral)）

nGlobal SAN

nLocal SAN

nCoarse-to-fine Cascade

实验结果展示：

今天先讲到这里，下次给大家讲解“StackedProgressive Auto-Encoders (SPAE) for face recognition across pose”。

登录查看更多

0

相关内容

深度模型

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

基于视觉的三维重建关键技术研究综述

基于视觉的三维重建关键技术研究综述

专知会员服务

166+阅读 · 2020年5月1日

25篇最新CV领域综述性论文速递！涵盖15个方向：目标检测/图像处理/姿态估计/医学影像/人脸识别等方向

专知会员服务

106+阅读 · 2020年4月9日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

快速准确的人脸检测、识别和验证新框架（文末附源码）

快速准确的人脸检测、识别和验证新框架（文末附源码）

计算机视觉战队

5+阅读 · 2019年8月28日

人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）

人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）

计算机视觉战队

7+阅读 · 2019年8月23日

CVPR 2019 论文大盘点-人脸技术篇

CVPR 2019 论文大盘点-人脸技术篇

极市平台

20+阅读 · 2019年6月21日

人脸专集4 | 遮挡、光照等因素的人脸关键点检测

人脸专集4 | 遮挡、光照等因素的人脸关键点检测

计算机视觉战队

29+阅读 · 2019年4月11日

人脸专集3 | 人脸关键点检测（下）—文末源码

人脸专集3 | 人脸关键点检测（下）—文末源码

计算机视觉战队

19+阅读 · 2019年4月8日

人脸相关算法、数据集、文献资源大列表

人脸相关算法、数据集、文献资源大列表

专知

16+阅读 · 2019年3月16日

【泡泡一分钟】一种用于单张图像大尺度人脸三维重建的VRN算法(ICCV2017-108)

【泡泡一分钟】一种用于单张图像大尺度人脸三维重建的VRN算法(ICCV2017-108)

泡泡机器人SLAM

8+阅读 · 2018年9月28日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

PFLD: A Practical Facial Landmark Detector

Arxiv

5+阅读 · 2019年2月28日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Convexity Shape Prior for Level Set based Image Segmentation Method

Arxiv

4+阅读 · 2018年5月22日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

Deep learning and its application to medical image segmentation

Arxiv

6+阅读 · 2018年3月23日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild

Arxiv

3+阅读 · 2018年2月1日

Dual Path Networks for Multi-Person Human Pose Estimation

Arxiv

3+阅读 · 2017年10月27日

VIP会员

相关主题

查全率/召回率

相关VIP内容

【ECCV2020-海康威视】用于深度表示学习的无监督图像分类

专知会员服务

70+阅读 · 2020年7月6日

基于视觉的三维重建关键技术研究综述

基于视觉的三维重建关键技术研究综述

专知会员服务

166+阅读 · 2020年5月1日

25篇最新CV领域综述性论文速递！涵盖15个方向：目标检测/图像处理/姿态估计/医学影像/人脸识别等方向

专知会员服务

106+阅读 · 2020年4月9日

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

近期必读的6篇CVPR 2020【域自适应（Domain Adaptation）】相关论文和代码

专知会员服务

96+阅读 · 2020年3月24日

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

【CVPR2020-上海交大】自组织记忆模块来解决网络图片中的标签噪声和背景噪声

专知会员服务

28+阅读 · 2020年3月18日

CVPR 2020 论文开源项目合集

专知会员服务

110+阅读 · 2020年3月12日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

基于深度网络的自监督视觉特征学习综述，附24页论文下载

基于深度网络的自监督视觉特征学习综述，附24页论文下载

专知会员服务

66+阅读 · 2020年1月15日

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

近期必读的7篇【医学图像分割】相关论文和代码（CVPR、AAAI）

专知会员服务

41+阅读 · 2020年1月10日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

快速准确的人脸检测、识别和验证新框架（文末附源码）

快速准确的人脸检测、识别和验证新框架（文末附源码）

计算机视觉战队

5+阅读 · 2019年8月28日

人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）

人脸专集2 | 人脸关键点检测汇总（文末有相关文章链接）

计算机视觉战队

7+阅读 · 2019年8月23日

CVPR 2019 论文大盘点-人脸技术篇

CVPR 2019 论文大盘点-人脸技术篇

极市平台

20+阅读 · 2019年6月21日

人脸专集4 | 遮挡、光照等因素的人脸关键点检测

人脸专集4 | 遮挡、光照等因素的人脸关键点检测

计算机视觉战队

29+阅读 · 2019年4月11日

人脸专集3 | 人脸关键点检测（下）—文末源码

人脸专集3 | 人脸关键点检测（下）—文末源码

计算机视觉战队

19+阅读 · 2019年4月8日

人脸相关算法、数据集、文献资源大列表

人脸相关算法、数据集、文献资源大列表

专知

16+阅读 · 2019年3月16日

【泡泡一分钟】一种用于单张图像大尺度人脸三维重建的VRN算法(ICCV2017-108)

【泡泡一分钟】一种用于单张图像大尺度人脸三维重建的VRN算法(ICCV2017-108)

泡泡机器人SLAM

8+阅读 · 2018年9月28日

一文概览基于深度学习的超分辨率重建架构

一文概览基于深度学习的超分辨率重建架构

论智

23+阅读 · 2018年3月24日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

人脸表情分类与识别：人脸检测+情绪分类

人脸表情分类与识别：人脸检测+情绪分类

北京思腾合力科技有限公司

27+阅读 · 2017年12月18日

相关论文

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

PFLD: A Practical Facial Landmark Detector

Arxiv

5+阅读 · 2019年2月28日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Convexity Shape Prior for Level Set based Image Segmentation Method

Arxiv

4+阅读 · 2018年5月22日

Efficient end-to-end learning for quantizable representations

Arxiv

6+阅读 · 2018年5月15日

Deep learning and its application to medical image segmentation

Arxiv

6+阅读 · 2018年3月23日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild

Arxiv

3+阅读 · 2018年2月1日

Dual Path Networks for Multi-Person Human Pose Estimation

Arxiv

3+阅读 · 2017年10月27日

大家都在搜

蓝牙安全攻防

大型语言模型

朱克爱德华兹家族

滴滴司机调度系统实践

微信扫码咨询专知VIP会员