11 月 29 日晚间,机器之心举办「智周洞察 · 可信 AI」:隐私保护增强的新一代生物识别技术线上研讨会。中国信通院云大所石霖主任、上海交通大学郁昱教授、墨奇科技汤林鹏、天壤韩定一四位嘉宾从学术研究、技术实现、应用挑战及安全合规四个角度共同探讨可信生物识别。
生物识别既是重要的模式识别和计算机视觉学科前沿方向,也是人工智能技术应用落地较早的方向之一。随着发展可信 AI 的全球共识的逐步深化,提高系统的隐私保护能力成为世界各国技术治理最为关注的方面之一。
近几年,学界、业界的科研人员纷纷提出了各种潜在技术路线及解决方案。随着《中华人民共和国数据安全法》及《中华人民共和国个人信息保护法》的施行启动,市场对升级技术,采用新一代具有隐私保护增强能力的生物识别系统的需求升温。相应的,构建新一代可信 AI 系统能力的生物识别技术的研发热度也在上升。
11 月 29 日晚间,机器之心举办「智周洞察 · 可信 AI」:隐私保护增强的新一代生物识别技术线上研讨会。本次线上研讨设置了 “主题分享” 与“趋势圆桌”两个环节,邀请了中国信通院云大所石霖主任、上海交通大学郁昱教授、墨奇科技汤林鹏、天壤韩定一四位嘉宾从学术研究、技术实现、应用挑战及安全合规四个角度共同探讨可信生物识别。
基于格的模糊提取器解决雪崩效应,实现哈希函数在生物特征识别的应用
在分享环节,郁昱教授以《基于格的模糊提取器与隐私保护生物识别应用》为主题,从密码学的角度探讨了生物识别领域的隐私增强技术,同时分享了他在相关领域中最新的工作。
基于生物特征的认证方式已存在广泛的应用。以人脸识别为例,该技术在如手机解锁、刷脸支付、机场 / 门禁等场景均有应用。相应的,对于人脸数据的收集和滥用等现象也在近期引起了海内外的大量关注。郁昱教授表示:
“对人脸的滥用没有办法从技术角度去解决,但人脸模板的安全存储的确是一个技术的议题。我们可以在技术层面通过密码学,或是其他手段将它泄露的风险降低,做到最小化。”
在人脸识别的过程中,我们会先对人脸进行拍摄,并通过模型将人脸部分进行提取(extracted face),然后将其转化成一个特征向量(feature vector),从而形成一个人脸的模板(template)存储于数据库(template database)中。此外,我们可以通过多次采集或尽可能地减小噪声,为保证后续最大化的识别率做准备。后续的每次刷脸会经过同样的流程,得到另外一份特征向量,并与数据库中的模板进行匹配,从而判断识别对象的身份。
然而,近几年的研究证明,将人脸通过某种模型转换成特征向量虽然是一个有损的过程,但它并非是不可逆的过程,我们仍然可以从特征向量中恢复人脸的部分,甚至大部分的信息。
因此,我们当前的目标是,如何在人脸模板数据实现隐私保护存储的前提下,实现尽可能高的人脸识别准确率。
我们借鉴了传统网站利用哈希函数对口令进行保护的模式。通过对口令进行哈希转化,对其进行“加盐(salting)”,转化为一个哈希值(或摘要值)进行存储;在进一步比对的过程中,将用户输入的口令进行同样的哈希转化。由此,我们只需比对两个哈希值,便可确认密码口令的正确与否,即便有人窃取了所有口令的哈希值,也难以还原出用户的原密码。(除非口令的熵或是空间过小,可以被穷举法推理)。
然而,由于人脸噪声的特性,每次人脸识别所形成的特征向量均会有微小的差异,而哈希函数存在一种“雪崩效应”(当有任何两个输入,只要有一个比特的不同,其表现的哈希值的差异是完全随机的),因此将传统的哈希函数直接应用到人脸识别领域基本不可能。
针对上述问题,Dodis 等密码学家于 2004 年提出了 “模糊提取器(Fuzzy Extractor)” 技术。通过算法从特征向量中提取一个随机数,作为认证的帮助信息。后续在刷脸的时候则可以由此帮助信息协助纠错,将特征向量精准还原为第一次注册的情况,实现匹配。通过结合哈希函数和模糊提取器,我们就得到了一个能够容忍一定噪声的,基于生物特征的,安全存储的人脸识别解决方案。
只是十几年前的模糊提取器大多被设计为面向比特的(hamming metric),其讨论的向量属于汉明距离的相近,而人脸的特征向量则是实数向量,因此传统的模糊提取器技术无法直接适配人脸,或是其他生物特征识别。
为此,郁昱教授提出了基于格的模糊提取器(Lattice Based Fuzzy Extractor),
通过近似二范数来衡量两个向量是否相近的标准。针对人脸识别应用,郁昱教授的团队基于
E8 和 Leech 分别形成了解决方案,实现最高 45 比特的安全性。
举例来说,45 比特的安全性大致可以做到攻击者尝试一次,成功率是 2 的 - 45 次方。
假设在 PC 端每计算一次重量级哈西需要 1 秒,那
么在这里做一个尝试就是 2 的 45 次方秒,相当于 100 多万年,因而实际上达到可接受的一个安全性。
以指掌纹入手,构建精准可靠、主动便捷、保护隐私的新一代生物识别
墨奇科技联合创始人及 CTO 汤林鹏博士以 “精准可靠、主动便捷、保护隐私的新一代生物识别” 为主题,讨论了新一代生物识别所应具备的特性,同时分享了墨奇科技在加强生物识别技术隐私保护能力的一系列工作。
汤博士表示,生物识别的应用在 AI 时代呈现大爆发的一个趋势,同时很好地起到了连接数字世界和物理世界的基石的作用。但这项技术同样带来了隐私安全方面的担忧。因为生物特征终身不变,与人身是强绑定,一旦泄露会引发极大的安全隐患。相较于密码可以修改,生物特征泄露就无法挽回。
汤博士总结了三点面向未来的新一代生物识别技术应当具备的特征,即:精准可靠、主动便捷以及保护隐私,并分享墨奇以指掌纹和静脉识别作为主攻方向,围绕上述三个特征的一系列工作。
在精准可靠方面,汤博士指出,指掌纹和静脉作为生物特征具备多尺度、信息分布丰富的特点,且精度很高,同时作为活体这一难以盗取的特性,具备高隐私性。在他看来,新一代生物识别至少需要解决 10 亿级别的高精度、高性能的挑战。
生物识别技术的验证模式基本分为 1:1 和 1:N 两种。前者常见于家居场景,如指纹锁、人脸锁等,其规模较小,验证容易。真正困难的是 1:N 的验证。因为当 N 的规模达到 10 亿级别,如支付、智慧城市等场景,生物识别系统的错比率会直接影响系统的可用性。
而目前主流的基于深度学习图像搜索的方案存在一些缺陷,如需要海量的数据,对遮挡、光照等复杂环境较为敏感等,且在复杂环境下的精度会出现大幅的下降。墨奇科技构建了一套基于向量和图的多尺度表示,对图像做了更搜索友好的特征表示。通过对图像从整体到局部进行多尺度的刻画,拥有的信息量会比单一尺度的向量获得若干数量级的提升。
基于向量和纯深度学习的方法需要海量数据,而数据往往难以获得,获得的过程也可能是对公民隐私的侵犯。墨奇科技因此开发了小样本自学习框架。在基于多尺度的图的表示下,单张图像训练信号极大的丰富,做到无标注和小样本学习。基于核心技术突破,墨奇科技是全球率先能够在 20 亿量级的指掌纹识别上达到秒级、高精度、无标注自动化比对的公司。
在主动便捷方面,汤博士表示,针对生物识别的便捷性,传统指掌纹验证需要按手机,接触按指纹采集器等,在疫情的影响下尤为不便。墨奇基于高精度三维结构光和光学上的一系列设计优化,实现非接触的指掌纹采集。用户可通过伸手或挥手完成采集,避免接触式采集的感染风险和消毒等不便,也支持利用手机后置摄像头采集,应用范围更加广泛。同时,采集过程需要用户主动确认、知情,因此更加保护隐私。
谈及生物识别系统在保护隐私方面的技术特征与实现,汤博士表示他与郁昱教授的观点相近,墨奇科技希望从数学可证明的形式,对生物特征进行变化,满足不可逆、可撤销、不可关联等种种特性。由此,系统平台中仅需要保存变换后的特征,不需要保存原始特征,实现保护隐私的比对,让生物识别变得像密码一样去使用。
汤博士比喻道:
“像是把原始的生物特征锁在一个保险箱里。这个保险箱在设计的时候就有强密码学的保护,只有用正确的生物特征才能够打开,如果说泄露了,攻击者也无法盗取原始的生物特征。”
由于传统的哈希加密方法不能适应于生物识别,墨奇的核心思想借鉴了通信领域的错误纠正码,通过里德 - 所罗门码将生物特征进行编码。以指纹举例,构建多尺度特征点,通过对其进行编码,因为编码数据存在冗余,从而可以容忍一定程度的信息丢失或者信息错位,但依然能够恢复出正确的参数。
上述方法形成的多项式依然有可能被攻击。对于如何实现把信息进行隐藏,墨奇科技的方法是在有效多项式内加入一定量的噪声,从而保护原有生物特征。由此,攻击者看到的只是杂乱无章,有真有假的特征点,破解工作相当于解一个 NP-Hard 的数学问题 - 多项式还原问题,即便使用量子计算机也十分困难。
总体而言,上述解决方案的核心思想可以总结为:
通过多尺度图像表示和密码学结合来保护生物特征,从而保护了系统安全和用户隐私,实现可信的生物识别。
中国信通院云大所石霖主任以 “走进中国信通院“护脸计划”:打造人脸识别安全合规的产业生态” 为题,分享了中国信通院《可信人脸应用守护计划》的一系列工作与成果。
石霖主任表示,我们目前处于一个数字经济的时代,而人脸识别作为人工智能的典型应用,同时也是技术成熟度最高,应用范围最广的技术领域,也是数字经济的一个典型的代表。我们可以看到人脸识别已率先实现商业化, 并已经形成了相对成熟的产业链,赋能了金融、安防等传统领域以及刷脸认证、移动支付等场景。
据相关资料显示,人脸识别的产业规模正在持续扩大。中国人脸识别产业规模正在保持 30% 左右的增速持续扩张,预计在 2024 年市场规模将突破百亿元人民币。在此趋势下,人脸识别的安全问题和合规问题逐渐暴露,成为社会关注的焦点。
对于人脸识别的安全与合规问题,石霖主任表示,在安全层面,人脸识别系统作为信息系统,必然存在一些安全的漏洞。由于人脸识别会被作为身份核验等关键组件或者功能被集成在信息系统或者 APP 中,因此也时常被黑灰产关注。比如通过呈现攻击,有黑客通过公开或泄露的人脸信息或个人图片,利用深度伪造等技术来突破人脸识别系统。此外还有还有不法分子通过注入攻击破坏 APP 的完整性来实现攻击的目的。
在合规层面,石霖主任表示,人脸信息属于敏感的个人信息。而通过对人脸的分析可以关联出我们的身份,年龄、喜好等等。因此有商家会进行不法利用,如通对人脸分析顾客特征,实现商业目的,或是超授权使用人脸数据等。这些都涉及到合规的问题。同时,对于人脸数据的采集,收集存储,以及合法性必要性是否符合类似最小必要原则等,都是目前我们面临的合规风险。
总体来看,做好人脸识别的安全、合规是一个非常复杂,且非常系统性的一项工程。国家也出台了如《民法典》《个人信息保护法》《网络安全法》《数据安全法》等相关法律。由此看来,“做好人脸识别安全、合规是不可突破的原则底线” 。
石霖主任表示,今年 4 月份,中国信通院云大所正式发起成立了可信人脸应用守护计划,希望能够在国家相关法律和政策的指引下,联合从事人脸识别应用研发的厂商及科研机构,共同探索人脸识别面临的安全和合规的风险;共同摸索出一套可信应用的范式,推动产业的健康发展。
同时,石霖主任分享了护脸计划正在推动的一系列工作:
一、 编制了《人脸识别系统通用可信能力要求》。护脸计划将人脸识别目前面临的典型攻击手段和场景进行分级。按照相应的实现难度高低,以及攻击存在的风险的高低进行五个级别的划分。
二、 正在编制《人脸信息处理合规操作指南》,全面梳理涉及到人脸信息相关的法律法规和司法解释等。
三、 开展人脸识别安全评估能力建设工作,依托工信部人工智能关键技术与应用评测实验室,全面收集和研究了市面上典型和主流的攻击方法。同时具备复现能力,可以帮助测试人脸识别系统的安全性。
四、组建 “可信人脸应用守护计划” 专家委员会。
此外,石霖主任分享了互联计划目前正在推动的第二批人脸识别安全评估工作,具体内容包含:针对技术提供方的安全能力评估服务;针对技术应用方的安全风险评估服务;个人信息(人脸)保护影响评估;个人信息(人脸)保护能力评估;以及针对人脸识别系统可信研发管理评估服务。
构建隐私保护强化的生物识别系统,平衡安全性与可用性是主要课题
在趋势圆桌环节,郁昱教授、汤林鹏博士
、石霖主任
以及特邀圆桌嘉宾韩定一博士围绕
“生物识别隐私保护增强技术实践趋势与产业应用所面临的挑战”
的主题进行了一系列话题的探讨。以下为部分精选 QA,完整内容可通过机动组视频号回顾了解。
问:人脸识别技术应用近些年一直在高速增长,是否有什么特别的契机推动了信通院云大所选择在今年启动 "护脸计划"?
石霖主任:
中国信通院的定位是国家专业智库和产业创新平台,也就是说我们既支撑政府,又服务产业。而近年来人工智能相关的技术落地所造成的信任危机,促使世界各国都采取了一些措施。对应的,信通院也是围绕人工智能的问题,提出了可信人工智能的一套思路,其实属于 “顶天” 的工作,包括发布《可信 AI 操作指引》,以及《可信人工智能白皮书》等,但依然需要去做一些 “立地” 的工作。我们也特别发现在人脸识别这个细分领域在近两年频频爆发一些问题,因此我们在今年年初经过大量的研究分析,针对人脸识别和安全合规的问题开创了护脸计划,总体来看是水到渠成的,顺势而为的工作。
问:可否请您谈谈在过去项目中,遇到的在应用生物识别技术时遇到的需要进行隐私保护增强的场景?当时遇到的主要技术挑战是什么?
韩定一博士:
最重要的场景应该就是一些用户身份的认证。首先是互联网企业,他们的用户规模都很大,有好几亿,因此一个系统通常要做到十亿规模的身份认证,这种情况下单一的生物体特征识别未必能做到那么高精度。所以可能要想一些其他方法来结合应用。这是第一个技术挑战
第二点是用户在认证的时候,如何识别活体,或是如何确保活体信息集成进来?现在的人脸识别会让用户张嘴,转头,眨眼等,或是让手机发出彩色的光,但是体验未必好。毕竟未必所有场景都能做出这些动作。
第三点,是生物采集的设备问题。很多系统会用特定型号的传感设备来做验证,这个时候对硬件的要求是很高的。而在跨越不同的传感设备时,系统的验证能力会被削弱,在一些极端环境下人脸检测未必能做的非常好。这种情况就会涉及到如何解决验证的问题。
最后是在城市场景会遇到的特殊情况,我们会遇到一些应用需要跨网络甚至跨系统,相当于不同系统要对不同人的身份做验证,同时还需要打通流程。那这些系统之间如何进行一种可信的机制的这种传递或者是在不同网络之间去传递这样的东西都是我们遇到的一些技术上的挑战。
问:目前学术界在生物识别技术隐私保护方面的主要研究方向有哪些?可否请您简要介绍一下这些研究方向以及相应的优缺点?
郁昱教授:
从密码学的技术来说,除了模糊提取器以外,还有安全多方计算技术。理论上,如果不考虑通讯复杂度,安全多方计算也可以应用在生物识别技术的隐私保护。但它们会有一些其他问题,比如在服务器端,我们只需通过安全双方计算,来计算两个特征向量的匹配度是否小于某个阈值的方式来进行验证。但由于服务器端是以明文存储,安全多方计算并不要求数据加密,因此这种技术路线虽然解决了安全通讯协议问题,仍然存在存储的问题没有解决。如果对口令进行加密,这时候使用安全多方计算又涉及到密钥管理的问题,因此这种技术路线理论上可行,但不是那么理想。
另一种解决方案是同态加密。这个时候服务器端的模板可能加密的。加密的时候,当有一个新的人脸的特征向量进来以后,我们可以把新的人脸的特征向量和原来的特征向量进行比对,在同态的状态下进行,最后得到一个同态的结果,因此结果也是加密的状态。理论上这个方案也可以做,但最终结果依然需要解密,也会带来密钥管理的一些挑战。
问:请问团队在提高生物识别应用隐私保护能力的实践中,都遇到过哪些工程与技术上的挑战?例如更大的计算量带来的系统性能问题? 安全性能的证明问题?
汤林鹏博士:
挑战方面,我们需要做各种密码学的编码解码,比方说我们要引入很多额外的噪声,它其实对于编码解码的性能会有很大的影响。所以我们要做很多算法系统上的加速,包括要额外的设计一些其他的机制来既保证安全,又保证性能。
然后另外整个生物识别系统当中,我们发现的一个核心挑战就是它的可用性和安全性之间的平衡。我们希望保证用户的可用性高,但是又希望达到数学上可证明的安全性。在这种情况下,如何达到真正强密码意义上的安全性,也会给我们提出更多的挑战。墨奇科技在可用性、安全性、便捷性、系统安全及合规等方面持续发力,希望把生物识别推进到下一个阶段。
观看完整活动视频:
关注 "机器之心机动组" 公众号,点击底部菜单 "往期精选" 进入机器之心知识站,搜索「智周洞察 · 可信 AI」:隐私保护增强的新一代生物识别技术即可观看活动视频。
交流群:
欢迎关注隐私保护、可信生物识别技术的读者加入交流群探讨交流,获取最新活动通知。
如群已超出人数限制,请添加机器之心小助手:syncedai、syncedai2、syncedai2、syncedai4、syncedai5,备注「可信生物识别」即可加入。
「智周洞察」 是由机器之心 Pro 出品,专注趋势性新一代人工智能技术的新型研究品牌,围绕人工智能学术探索与工程技术热点研究方向展开深入探究,追踪最新的 AI 技术路线,分析成熟情况,洞察潜在技术迭代机会。
「智周洞察 · 可信 AI」专题系列关注以构建可信 AI 系统为目标的新一代人工智能技术,围绕隐私保护、可解释性、公平性及稳健性增强等角度展开具体探讨。
点击阅读原文或通过 pro.jiqizhixin.com 获取智周洞察完整版报告,探索可信生物识别技术路线,洞察领军厂商可信生物识别技术布局。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com