史上最大「面部识别数据研究」：43年，100个数据集，9个可怕的真相

会员服务 ·

史上最大「面部识别数据研究」：43年，100个数据集，9个可怕的真相

2021 年 2 月 13 日 新智元

新智元报道

来源：外媒

编辑：小匀、LQ

【新智元导读】面部识别技术最初用于刑事调查和监控，受到政府的支持和推广，但现在已经发展成为无所不知的资本主义广告定位机器，最近一项对过去43年面部识别训练数据集的研究，显示了深度学习的兴起在何种程度上助长了隐私的丧失。

在科幻小说中，面部识别技术是威权社会的标志。关于它是如何被创造出来的，以及今天它是如何被使用的，真相都令人惊奇。

Mozilla的Deborah Raji和AI Now的Genevieve Fried在arXiv上发表了一篇论文About Face: A Survey of Facial Recognition Evaluation，在这篇论文中，作者对1976-2019年间收集的100多个用于训练面部识别系统的数据集进行了调查。

从中得出的最广泛的启示是，随着对更多数据(即照片)需求的增加，研究人员不再费心去征求用作数据的照片本人的同意。

《麻省理工学院技术评论》发文This is how we lost control of our faces，称该论文是「有史以来最大的面部识别数据研究，显示了深度学习的兴起在何种程度上助长了隐私的丧失」。

在这项关于面部识别数据集进化的追踪调查中，有一些历史时刻和揭示这项技术发展的事实，它们展示了面部识别的本质：当应用于现实世界时，它是一项有缺陷的技术，创建的明确目的是扩大监控状态，结果是侵犯我们的隐私。

以下是43年面部识别研究得出的9个令人惊讶又可怕的结果。

1 面部识别在学术环境与现实世界应用之间存在巨大的鸿沟

作者进行这项研究的原因之一就是想要了解为什么在测试中准确率接近100%的面部识别系统，在现实世界中应用时却有很大的缺陷。

例如，纽约市的大都会运输署在面部识别的错误率达到100%后，停止试点项目。

面部识别在识别黑人和棕色人种时的准确率较低，最近，三名黑人男子被面部识别技术错误识别并被捕。

2 美国国防部对这一技术的最初繁荣负有责任

虽然开发面部识别技术的努力始于学术界，但1996年美国国防部和美国国家标准和技术研究所（NIST）拨款650万美元建立了迄今为止最大的数据集，这一技术开始起步。

政府对这一领域产生了兴趣，因为它可用于实施监控，不像指纹识别那样需要人们积极参与。

3 早期用于创建面部识别数据的照片来自于人像拍摄，这就产生了很大缺陷

这看起来有点古怪，但大概在2005之前，研究人员建立数据库的方式是让人们坐着拍摄个人照。

因为今天的一些基础性的面部识别技术就来自于这些数据集，所以人像技术的缺陷可以产生共鸣的，比如，参与者类型单一，以及不能准确反映真实世界状况的现场设置。

4 当人像拍摄不够的时候，研究人员就开始Google，也不再征求同意

是的，当研究人员不再满足于添加人像到数据集的时候，事实确实是这样。

2007年的一个名为「Labeled Faces in the Wild」的数据集搜刮了谷歌、Flickr、YouTube和其他在线照片库。其中包括儿童的照片。虽然这极大地丰富了数据库，但却抛弃了照片主体的隐私权。

5 面部识别的下一次繁荣来自Facebook

研究人员引用了面部识别的一个转折点，即Facebook在2014年公布了其DeepFace数据库的创建。

Facebook展示了如何用收集到的数百万张照片创建神经网络，这些神经网络在面部识别上的表现远优于之前的系统，这使得深度学习成为现代面部识别技术的基石。

6 令人意外的是，Facebook大规模的面部识别做法侵犯了用户的隐私。

由于Facebook使用了用户上传的照片来用作面部识别，但却没有征得用户的正面同意，Facebook被美国联邦贸易委员会罚款，并向伊利诺伊州支付了一笔赔偿金。DeepFace通过「标签建议」(Tag Suggestions) ，这个功能向你推荐照片中想要标记的人。

接受或拒绝标记又让Facebook的系统变得更加智能。标签建议是可以选择退出的，这意味着参与这项技术是默认的。

7 面部识别系统已经在1770万人的脸上进行了训练--这还只是在公共数据集中。

事实上，我们并不知道有多少人的照片使在不知不觉中参与了面部识别技术的开发，也不知道这些参与者的身份。

8 面部识别的自动化导致了令人反感的标签系统和不平等的代表性。

面部识别系统的发展已经超出了识别一张脸或一个人的范围。它们还可以以攻击性的方式给人及其属性贴标签。

「这些标签包括关于体型的问题和潜在的侮辱性标签--'胖子'、'双下巴'--或不恰当的种族特征，如亚洲受试者的'苍白皮肤'、'尖鼻子'、'细长眼睛'，以及许多黑人受试者的'大鼻子'和'大嘴唇'。此外，还有怪异的概念，如'眼袋'、'胡茬'和客观上不可能一致定义的标签，如'吸引力'。」

训练集的默认值识别对象是「西方人」的面孔，而其他明确为增加多样性而创建的数据集本身也存在问题。

其中一个系统的目的是「训练无偏见和能够辨别歧视意识的人脸识别算法」，但研究人员指出，它只「将人类的种族起源划分为三类」。

这些毛病不仅仅是令人反感。研究表明，人工智能中的歧视会强化现实世界中的歧视。

9 今天，面部识别技术的应用范围从政府监控扩展到广告定位。

面部识别不仅保持了它的本来面目，又扩大了范围，超出了1970年代其创造者的想象。

「我们可以从历史背景中看到，政府从一开始就推广和支持这项技术，目的是为了实现刑事调查和监控。」作者写道。

例如，亚马逊已经将其有问题的 Rekognition技术卖给了数不清的警察部门。

另一方面，一些训练集承诺，它可以帮助开发系统来分析购物者的情绪，更好地跟踪和了解潜在客户。

哪个更荒诞？利用面部识别实施监视的国家还是无所不知的资本主义广告机器? 你来决定。

参考链接：

https://mashable.com/article/facial-recognition-databases-privacy-study/

论文链接 https://arxiv.org/pdf/2102.00813.pdf

相关内容

面部识别

关注 0

【WWW2021】大规模智能手机数据的异质联邦学习

专知会员服务

43+阅读 · 2021年3月8日

虚假评论识别研究综述

专知会员服务

24+阅读 · 2021年3月2日

最新《图像到图像转换:方法与应用》综述论文，19页pdf

专知会员服务

33+阅读 · 2021年1月25日

机器学习的安全问题及隐私保护

专知会员服务

40+阅读 · 2020年12月20日

深度伪造与检测技术综述

专知会员服务

74+阅读 · 2020年12月12日

最新《端到端人脸识别》2020综述论文，44页pdf

专知会员服务

80+阅读 · 2020年10月2日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

最新《Deepfakes：创造与检测》2020综述论文，36页pdf

专知会员服务

65+阅读 · 2020年5月15日

中科院信工所发布《深度学习系统的隐私与安全》综述论文，187篇文献总结

专知会员服务

103+阅读 · 2019年12月5日

密歇根大学《20年目标检测综述》

专知会员服务

99+阅读 · 2019年10月13日

Facebook发布AI换脸检测竞赛

专知

9+阅读 · 2019年9月7日

Deepfake再升级！一张照片+音频“复活”爱因斯坦

AI前线

5+阅读 · 2019年6月21日

爱因斯坦未披露演讲公开了？不，这只是一张图、一段音合成的AI视频

机器之心

7+阅读 · 2019年6月21日

人脸识别技术的转折点

AI前线

3+阅读 · 2019年5月31日

美参议员提出商业面部识别隐私法案

蚂蚁金服评论

12+阅读 · 2019年4月25日

深度学习可以辨别你言语中的抑郁情绪？看看MIT的研究怎么说

英伟达NVIDIA中国

8+阅读 · 2019年3月8日

你用Deepfakes给小电影换个脸，人脸识别AI也看不出来：95%萌混过关

量子位

12+阅读 · 2018年12月31日

【学界】惊了，DeepFakes不仅骗过人，还能骗过人脸识别系统？！

GAN生成式对抗网络

8+阅读 · 2018年12月29日

【换脸AI升级版】面部表情、身体动作、视线方向都能实时迁移

新智元

4+阅读 · 2018年6月10日

微表情检测和识别的研究进展与趋势

中国计算机学会

15+阅读 · 2018年3月23日

Measuring Human Perception to Improve Handwritten Document Transcription

Arxiv

0+阅读 · 2021年6月22日

Detecting Anomalous User Behavior in Remote Patient Monitoring

Arxiv

0+阅读 · 2021年6月22日

Fast Neural Network Verification via Shadow Prices

Arxiv

0+阅读 · 2021年6月21日

Surgical data science for safe cholecystectomy: a protocol for segmentation of hepatocystic anatomy and assessment of the critical view of safety

Arxiv

0+阅读 · 2021年6月21日

End-To-End Bias Mitigation: Removing Gender Bias in Deep Learning

Arxiv

0+阅读 · 2021年6月21日

Privacy Amplification via Iteration for Shuffled and Online PNSGD

Arxiv

0+阅读 · 2021年6月20日

Privacy in Targeted Advertising: A Survey

Arxiv

0+阅读 · 2021年6月20日

Privacy-preserving Publication and Sharing of COVID-19 Pandemic Data

Arxiv

1+阅读 · 2021年6月18日

Deep Learning for Deepfakes Creation and Detection

Arxiv

6+阅读 · 2019年9月25日

Detecting and counting tiny faces

Arxiv

4+阅读 · 2018年1月19日

VIP会员