读Kinship Verification from Videos using Spatio-Temporal Texture Fea tures and Deep Learning论文
作者:Elhocine Boutellaa, Miguel Bordallo L´opez, Samy Ait-Aoudia, Xiaoyi Feng, and Abdenour Hadid Centre de D´eveloppement des Technologies Avanc´ees, Algeria
原文链接:https://arxiv.org/pdf/1708.04069.pdf
这篇文章是2016年发表在IEEE(ICB)上关于亲属识别的一篇比较新的文章。
目前多数的亲属识别方法还停留在传统的从静态的图片中提取浅层手动设计的特征,这篇文章的贡献点有以下两个方面:1.将问题从时空角度出发进行考虑 2.将浅层的时空纹理特征与一些深度特征相融合。实验证明以上两个方面在UvA-NEMOSmile database上都可以有效提高亲属识别的准确率。
1.浅层特征:local binary patterns (LBP)、 local phasequantization (LPQ) 、binarized statistical image features(BSIF),分别从XY、XT、YT三个平面上提取特征,其中X、Y表示水平和垂直空间轴,T代表时间。这三个特征通过参数变化分别提取多个维度上的特征,对于LBP,P = 8; 16; 24,R = 1; 2; 3,对于LPQ和BSIF,滤波器的尺寸选择W = 3; 5; 7; 9; 11; 13; 15; 17
2.深度特征:CNN,由于亲属识别数据集比较小,神经网络模型需要大量的训练数据,所以我们采用预训练的方法通过VGG-face network提取深度特征, VGG-facenetwork是用大量的人脸识别的图像训练出来的一个模型,接收224*224像素的图像输入,通过13个卷积层+relu,mpool,fc层产生一个4096维的向量以便我们可以有效利用。网络结构如下,实验中将视频一帧一帧的送入网络提取深度特征,最后对所有帧的图像特征求平均得到最终的人脸深度特征属性。
3.分类:SVM,每一对人脸特征X、Y通过向量F表示:
4.实验结果:
浅层特征vs深度特征:
视频vs图像:
和现有方法的比较: