使用张量融合神经网络的基于属性的人脸识别

2017 年 11 月 2 日 统计学习与视觉计算组 尚子钰

论文题目:Hu, Guosheng, et al. "Attribute-Enhanced Face Recognition with Neural Tensor Fusion Networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

原文链接:http://yang.ac/papers/Hu2017Attribute.pdf



1.摘要

        本文作者提出了一种基于张量的图像特征融合方法。证明这种张量融合方法和神经网络等价之后,作者直接使用神经网络来学习并得到最终融合后的特征。最后的实验证明,融合后的特征在MultiPIE,CASIA NIR-VIS2.0和 LFW 数据集上都取得了不错的效果。

2.相关工作

        得益于大数据和深度学习的支持,人脸识别技术最近取得了长足的进步。不过,由于特征提取方法的局限,人脸识别技术在处理姿态变换问题时尚有不足。比如当一个人正面面对我们和侧面面对我们时,传统的提取特征方法提取到的特征FRF(face recognition features)肯定是不同的,这就会降低我们的识别准确率。而另一种特征FAF(face attribute features)对于光照和分辨率以及姿态变换则很鲁棒。什么是FAF呢?顾名思义,就是用一组属性来描述人脸特征。比如,一个人的外貌可以描述为“大鼻子,大眼睛,小嘴巴,高鼻梁,厚眉毛”,无论这个人以如何的姿态面对镜头,他的这些属性特征是不会改变的(比如不管正脸还是脸,大鼻子还是大鼻子),所以说FAF具有一些很鲁棒的特性。但是,单独用“大鼻子,大眼睛,小嘴巴,高鼻梁,厚眉毛”这些属性来描述一个人外貌又显得不够有区分性,因为长这样的人实在太多了。所以,本文作者为了充分利用两种特征的互补性,将FRF和FAF二者特征用基于张量的方法融合。由于求解张量特别繁琐,作者发现这个求解过程完全可以用一个神经网络来等价。于是作者最终使用神经网络来获取最终融合后的特征,降低了计算的复杂程度,并且取得了不错的效果。

3.具体方法

        3.1目标函数

        以简单的多分类问题举例。

        对于一个特征来说,特征x和标签y之间的关系可以用矩阵W来建模,他们的关系如下:

        而对于多个特征,比如2个特征,其中x表示FRF特征,z表示FAF特征,他们的关系也可以用一个张量W来建模,关系如下:

在这里,W是一个融合模型,一个D*C*B的三阶张量,x是D维特征向量,z是B维特征向量。y是最后标签,是一个C维向量,表示目标被分成C类。注意,公式2里的的乘法均为张量点积(tensor dot product)。所以,如果要对M个样本进行建模,求得一个最终的分量W的话,最终的目标函数即为:

就是一般的损失函数了。这个公式里的W,融合了FRF和FAF并最终确定了特征的分类y。

        3.2问题优化

        公式3里的W是一个三阶张量,有着非常复杂的计算难度。所以我们首先对W使用Tucker分解,将W分解为如下形式:

S是一个KD*KC*KB的三阶张量。是KD*D维的矩阵,是KC*C的矩阵,是KB*B的矩阵。通过约束,我们可以有效地把参数从降低到。这样我们只需学习到即可。

将公式4插入公式2,得到

整理得到

再整理,可得

是克罗内克积。是张量S的二模展开(mode-2 unfolding),为KC*KDKB矩阵。

        观察公式7,我们可以发现,融合特征是一个KC维的向量,而则扮演着一个分类器的角色。所以我们只要学习到,就可以使用来预测类别了。本文就使用一个神经网络来学习这4个变量,如下图所示:

训练这么一个神经网络,就可以用来分类目标了。

        3.3基本特征提取

        (1)FRF特征使用下面网络提取,激活函数采用maxout。最终的特征为全连接层的256维向量。

        (2)FAF特征使用Lighten CNN(Z. S. Xiang Wu, Ran He. A lightened cnn for deep face representationarXiv:1511.02683, 2015. 5)。5个conv-activation-pooling单元之后连接一个256维的全连接层。训练网络时,标签去掉了""wear glasses"和"smiling"这些不具有判别性的属性,最后一共使用17个属性来训练网络。

4.实验




写的真好,我要赞他!


登录查看更多
3

相关内容

人脸识别,特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。生物特征识别技术所研究的生物特征包括脸、指纹、手掌纹、虹膜、视网膜、声音(语音)、体形、个人习惯(例如敲击键盘的力度和频率、签字)等...
【ICLR2020】图神经网络与图像处理,微分方程,27页ppt
专知会员服务
47+阅读 · 2020年6月6日
麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》
专知会员服务
50+阅读 · 2020年2月19日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
快速准确的人脸检测、识别和验证新框架(文末附源码)
计算机视觉战队
5+阅读 · 2019年8月28日
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
深度协同过滤:用神经网络取代内积建模
PaperWeekly
6+阅读 · 2018年5月28日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
论文解读 | 基于神经网络的知识推理
PaperWeekly
5+阅读 · 2018年3月8日
CNN神经网络内部知识表达的“黑”与“白“
Learning Recommender Systems from Multi-Behavior Data
Arxiv
4+阅读 · 2018年7月4日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关资讯
快速准确的人脸检测、识别和验证新框架(文末附源码)
计算机视觉战队
5+阅读 · 2019年8月28日
TPAMI 2019 | 鲁棒RGB-D人脸识别
计算机视觉life
11+阅读 · 2019年6月8日
深度协同过滤:用神经网络取代内积建模
PaperWeekly
6+阅读 · 2018年5月28日
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
14+阅读 · 2018年3月12日
论文解读 | 基于神经网络的知识推理
PaperWeekly
5+阅读 · 2018年3月8日
CNN神经网络内部知识表达的“黑”与“白“
Top
微信扫码咨询专知VIP会员