从0到1，漫谈步态识别那些事

2017 年 9 月 24 日 机器学习研究会

I.序曲

在2017年9月15日晚黄金时段播出的中央电视台CCTV-1大型科技挑战节目《机智过人》第三期中，我们的步态识别研究团队在与“最强人类”袁梦（国际记忆大师，曾成功从168条音轨中辨识出TFBOYS三位的音轨）的挑战中胜出，接受了姚期智(中科院院士、图灵奖得主)、撒贝宁等组成的嘉宾团现场鉴定，引起了社会各界的广泛关注。在该期节目中，我们的步态识别系统先后对10个身高、体型相似的蒙面人“嫌疑犯”与21只体型、毛色相似的金毛犬进行识别，均取得了成功。

图1 主持人高博介绍步态识别国家队

图2 步态识别系统与记忆大师PK

图3 步态识别系统识别金毛犬的效果展示

实际上，对于步态识别，大家在生活中并不陌生，我们经常在远处还未看清面孔时就能通过步态识别出自己熟悉的亲朋好友。我们的科研团队就是利用智能分析算法赋予计算机具备这种通过步态识别身份的能力。

与其它生物识别技术相比，步态识别具有远距离、非接触、不易伪装等优点：一、步态识别适用距离更广。通常情况下，为达到良好识别效果，虹膜识别需要目标在30厘米以内；人脸识别需要目标在3米以内；而步态识别的目标可以远达50米。二、步态识别为非受控识别，无需识别对象主动配合与参与。指纹识别、虹膜识别、人脸识别等都需要识别对象主动配合。步态是远距离、非受控场景下唯一可清晰成像的生物特征，即便一个人在几十米外背对普通监控摄像头随意走动，步态识别算法也可对其进行身份判断。三、步态难以伪装。不同的体型、头型、肌肉骨骼特点、运动神经灵敏度、走路姿态等特征共同决定了步态具有较好的区分能力，通过精巧设计的算法和海量数据的训练，机器可以更好地识别这些细节特征。

图4 步态识别技术的特点和优势

我们的步态识别研发团队经过17年持续专注的钻研，终于将这门技术带入到大家的生活之中。那么，我们是如何结缘步态识别研究？在研究过程中我们又有哪些值得回味的故事？我们是如何从0到1，把这门技术打造成一门独门绝技？步态识别在未来生活中又有哪些实际应用呢？让小编为大家一一揭秘。

II.缘起

也许有些人已经知道，王亮博士（目前是模式识别国家重点实验室副主任）是国内最早开展步态识别研究的学者。早在2000年，他刚刚从安徽大学硕士毕业，经过激烈的竞争，有幸加入到谭铁牛院士的课题组攻读博士学位。开学后不久，同其他刚入学的博士一样，他需要明确博士开题的研究方向。谭老师建议他去研究视频中人的运动分析，这个研究方向有很多可研究的具体任务。为了快速了解基于视觉的人运动分析领域的研究现状，王亮博士广泛阅读大量相关的论文，并做了认真地总结、归纳和思考，从而首先撰写了一篇综述性的论文。该论文发表在国际模式识别期刊（PR, Pattern Recognition，2003）[1]上，这篇文章后来也成为人运动分析领域必读的经典综述之一（读者有没有读过此文呢）。

2000年前后，谭老师课题组的大部分学生都集中于研究虹膜识别、人脸识别、纹理分析、基于模型的车辆跟踪等方向，课题组在这些研究方向具有深厚的技术积累和研究基础。王亮博士当时对基于视频的人脸识别也显示出极大兴趣，经过初步探索，提出一种人脸检测与跟踪方法（详阅 ACCV，2002）。然而，这项研究与博士开题时谭老师指定的人的运动分析方向却有很大差别。这时他面临着艰难的抉择：是继续坚持研究人脸检测、跟踪与识别，还是回到人的运动分析上？（说到这里，话说小编们也马上要博士开题了啊）

没过多久，谭老师告诉了他一个消息：美国国防高级研究计划局（DARPA）资助了一项远距离身份识别（HID，Human Identification at a Distance）项目，该项目聚集了来自麻省理工学院、佐治亚理工学院、马里兰大学、南安普顿大学等科研单位参与，重点攻关远距离虹膜、人脸、步态识别研究。当时国际上人脸识别研究较多，谭老师的课题组已开拓了虹膜识别，并且部分研究生在从事人脸识别研究。然而，虹膜、人脸一般还是受限于近距离或中远距离，这时步态就成为在真正远距离时唯一可感知和识别的生物特征。鉴于这些考虑，谭老师便希望王亮博士尝试一下步态识别研究。考虑到之前对于运动分析的调研基础和兴趣，他最终决定对步态识别进行深入探索。

实际上，当时国际上对于步态识别的研究寥寥无几，同时也缺少进行评测的合理规模的步态数据库。为数不多的步态相关研究基本是医学步态分析，用于身份识别的研究更是凤毛麟角。王亮博士感到困难重重，困惑过、彷徨过。面对困难，最终他选择迎头直上，“没有跨视角的步态数据库就自己建；师兄师姐没有可以传授的经验，那就自己钻研”。在谭老师的鼓励和支持下，凭着一股韧劲，他踏上了长达10余年的步态识别之路。

III.进程

十余年来，谭老师领导的步态识别研究团队一路披荆斩棘、高歌猛进，取得了六个 “第一”，奠定了该团队在步态识别领域的国际领先地位。该团队发表了国际上第一篇关于步态识别的国际顶级期刊TPAMI文章[2]；创建国际上第一个多视角步态识别数据库CASIA-A；培养了中国第一位步态识别博士；出版了国际上第一部步态识别专著[3]；创立了国际上第一家步态识别公司（银河水滴）；第一次在模式识别国际大会（ICPR，2017）上举办了步态识别讲习班。

下面，小编将从算法、数据库、产业化等几个方面来为大家依次讲述。

01算法

最初，国际上的步态识别研究很少，可以参考的资料寥寥无几。在这种情况下，想在步态识别方向做出成果，难度可想而知。而事情往往具有两面性，王亮认为，现有方法少、资料少、数据少不只是障碍，更是机遇，这恰好可以释放自己的创造力，以更加开阔的思维去解决问题。考虑到步态是一种特殊的人的运动，因此人的运动分析的研究成果自然可以借鉴。于是，在艰辛的不懈努力下，步态识别领域的一系列经典之作纷至沓来。

王亮首先提出一种基于人体剪影分析的步态识别方法[2]，发表在了模式识别国际顶级期刊TPAMI上，这是该期刊收录的第一篇步态识别研究论文。很快，他又提出一种基于形体统计分析的步态自动识别方法[4]，发表在图像处理国际顶级期刊TIP上。后来他又提出了融合基于形状和基于模型的步态识别方法，先后发表在视频处理国际期刊TCSVT[5]及计算机视觉顶级会议ICCV[6]上。之后，课题组的其他成员也竞相做出了一系列有影响力的研究成果。于仕琪发现可以通过步态进行性别分类，对于提高监控系统的智能分析能力有很大帮助，发表TIP[7]上。郑帅采用一种步态与足印融合的方法实现了高精度的身份识别，发表在PR[8]上。在跨视角步态识别的研究中，一系列合作研究成果也相继发表在TIP [9]，TPAMI[10]，PR[11]，ECCV[12]上。

图5 基于人体剪影分析的多视角步态识别

在深度学习技术刚刚兴起之时，团队的吴子丰博士便率先将深度学习引入到步态识别，提出一种基于CNN的双通道步态识别模型，取得了跨视角步态识别性能的突破，提高了30%的准确率，研究成果先后发表在TPAMI[13]和TMM[14]上。近期，更多成熟的步态识别算法被提出和应用到水滴科技公司的步态识别系统中。

图6 基于CNN的跨视角步态识别

02数据库

算法固然重要，但是支撑算法模型训练的数据库往往成为制约性能的瓶颈，而步态识别领域恰恰就存在数据库规模小、数量少、多样性少等制约。因此，团队在步态数据库建设方面花费了巨大的心血，也一直走在了国际前列。最开始的时候，为了解决多视角步态识别问题，王亮博士带领团队在2001年建设了国际上第一个多视角步态数据库CASIA-A，该数据库在室外拍摄，包含3个不同视角的步态序列。这个数据库为跨视角步态识别算法的研究提供了巨大的帮助。

图7 CASIA-A户外跨视角步态数据库（2001年）

到了2005年，随着计算机计算能力的不断提高，以及对于更大规模、更高精度步态识别算法的需求，迫切需要建设一个更大规模、视角更精细、多样性也更多的步态数据库，CASIA-B应运而生。为了解决夜间步态识别问题，课题组当年又建设了夜间红外步态数据库CASIA-C。另外，为了探索人的步态与足印之间的关系，足印步态数据库CASIA-D也在2009年建成。

图8 CASIA-B跨视角步态数据库（2005年）

图9 CASIA-C红外步态数据库（2005年）

图10 CASIA-D足印步态数据库（2009年）

随着深度学习技术的发展，许多高精度的算法模型都依赖大型数据库用于训练，团队之前建成的步态数据库在历经10年之后由于视频分辨率较低、人数较少等原因已经无法满足现实需求。在综合考虑各方面的需求之后，一个超大规模的室外、跨视角、跨着装、跨场景、跨行走状态的步态数据库CASIA-E历时近一年时间终于在2016年建成。该数据库含有1,014人在3种不同场景下的26个不同视角下，变换3种着装共70余万段步态视频，视频全部采用了1080P全高清分辨率记录。

从CASIA-A到CASIA-E的陆续建成，生动描绘出了步态识别从0到1、破茧成蝶的艰辛历程。

图11 CASIA-E 千人超大型跨视角跨着装跨场景步态数据库（2016年）

03产业化

科研算法最终都要走向实际应用才能对社会产生直接的价值。团队不只着眼于论文中的算法研究，还从实用的角度去综合考虑步态识别这一技术。团队依次开发了步态识别演示系统离线版1.0，实现了对电脑端步态视频的分析。为了做到实时分析，团队又开发了在线版步态识别系统V1.0，并在采用深度学习技术后更新至2.0版本，此时系统的识别精度大幅提升，达到了可以商用的程度。最近，团队创立的水滴科技公司更是将步态识别技术部署到安防刑侦第一线，将对社会产生巨大的价值。

转自：智能感知与计算研究中心

完整内容请点击“阅读原文“””

登录查看更多