微软图像加密算法被破解，谷歌等大厂都在用，MIT硕士小哥开源逆向所用方法

会员服务 ·

微软图像加密算法被破解，谷歌等大厂都在用，MIT硕士小哥开源逆向所用方法

2021 年 12 月 22 日 量子位

明敏发自凹非寺
量子位报道 | 公众号 QbitAI

微软号称“永不会被逆向”的图像加密算法，现在被MIT一位硕士小哥轻松破解了。

只用几行代码，原本被加密为一串数字的图片便“原形毕露”，可以看清其大致轮廓。

要知道，谷歌、Facebook、Twitter等大平台对图像加密，用的都是微软这一方法。

如今这么轻松就能逆向？让人细思极恐啊。

而无独有偶，此前苹果号称不会被逆向的图像加密算法，也曾被“破解”。

前不久，Facebook搞出了让用户上传果照保护隐私的“清奇方法”，用到的也是类似原理。

这不禁让人深思，Facebook上传的果照，还安全吗……

目前这一方法已经在GitHub上开源。

利用泄露编译码破解

小哥破解的是微软在2009年时提出的图像加密算法PhotoDNA，是业内最具代表性、最早出现的技术之一。

这一方法是微软与达特茅斯学院Hany Farid教授共同研发，以识别删除网络上流传的儿童受害的照片。

通过将图片数据打乱混合、重新创建一个哈希值（hash values），它可以给每张照片匹配一个独特的“数字指纹”。

由此，系统只需将已经标记为儿童被侵害图片的哈希值与其他图片的值对比，一旦找到相同的数字串，便可判别其为非法图片。

这种手段一方面可以很好保护用户的隐私，同时还能快速甄别出网络上流传的违规图片。

但其关键就在于：该方法不可逆向，否则所有图片信息其实都在“裸奔”。

为此，微软一直未透露PhotoDNA的算法细节。

不过随着前段时间苹果NeuralHash算法被逆向，一个可计算PhotoDNA哈希值的编译库也被泄露了。

在此基础上，MIT的这位小哥提出了名为“Ribosome （核糖体）”的逆向方法。

它将PhotoDNA看作一个黑盒，然后用机器学习的方法攻击哈希函数。

因为编译库已经被泄露，所以可以生成图像与哈希值对应的数据集。

在这一数据集上训练神经网络后，该方法便能根据哈希值来逆向图像了。

小哥表示，PhotoDNA的哈希值是144元素的字节向量，他使用了类似于DCGAN和Fast Style Transfer的神经网络，在缩小卷积步长后使用残差块，从而转换出100×100的图像来。

在开源项目中，小哥已经上传了4个预训练模型。

现在只需通过一行训练命令，就能实现从哈希值到图像的转换。

python infer.py [--model MODEL] [--output OUTPUT] hash

具体结果如何？

小哥在不同数据集上都试验了一下，可以看出大部分情况下都能还原出图像轮廓。

而且先验越好，结果就会越好。比如在CelebA人脸数据集中，还原人脸的效果明显最好（第二行第一个），而它在还原别的图像时，也会倾向于给出类似于人像的结果（如第一行第一个）。

不过此方法也有失败的时候，比如Reddit数据集中，有些生成图像会存在伪影。

One More Thing

事实上，除了微软之外，还有不少科技巨头都在用哈希算法来加密图像。

比如我们前文提到的苹果。

前段时间，他们推出了一种叫做NeuralHash的加密技术来远程扫描用户照片，以此来控制色情、虐童照片的传播。

彼时苹果一再强调该技术的安全性和隐私性。

但是不到半个月的时间，该方法就被一位程序员破解，还被另一位英特尔的工程师发现了bug。

前段时间，Facebook声称要让用户上传果照保护隐私，用到的也是这种方法。

Facebook表示，他们会将你自己上传果照的哈希值标记，如果在网上发现了相同的数值，就会对该图片做删除处理。

但随着这类方法不断被成功逆向，其安全系数或许还有待人们考证。

网友们还开了个脑洞，认为Ribosome输出的结果足以再用在分辨率提升的模型上。

难道说还原高清图像也不是难题了？？？

不过，大家马上想到此前曾把奥巴马的低分辨率照片还原成白人面孔的算法。

嗯，这么看来，从哈希值得到原画图像，似乎还无法实现（doge）。

所以这一波破解等于是泄露，但没有完全露？

参考链接：
[1]https://www.anishathalye.com/2021/12/20/inverting-photodna/
[2]https://github.com/anishathalye/ribosome
[3]https://www.reddit.com/r/MachineLearning/comments/rkrcyh/p_inverting_photodna_with_machine_learning/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

哈希学习

关注 1419

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

谷歌教你学 AI -机器学习的7步骤

专知会员服务

28+阅读 · 2022年3月13日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式

专知会员服务

12+阅读 · 2021年12月9日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

一张照片就能生成3D模型，GAN和自动编码器碰撞出奇迹，苏黎世联邦理工学院出品

量子位

0+阅读 · 2022年3月2日

IT = 加班多？外国小哥打破“魔咒”：“每天工作 10 分钟，工资近 9 万美元！”

CSDN

0+阅读 · 2022年1月24日

150亿参数，谷歌开源了史上最大视觉模型V-MoE的全部代码

机器之心

0+阅读 · 2022年1月14日

本科生新算法打败NeRF，不用神经网络照片也能动起来，提速100倍｜开源

量子位

0+阅读 · 2021年12月24日

如何防止果照外泄？自己先上传就OK！扎克伯格这波操作给网友整不会了

量子位

0+阅读 · 2021年12月6日

多用户环境下的可搜索公钥加密研究

国家自然科学基金

0+阅读 · 2013年12月31日

云安全联盟认证与密钥协商

国家自然科学基金

1+阅读 · 2012年12月31日

图像压缩感知与图像加密融合算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于分数梅林变换的光学图像加密方案研究

国家自然科学基金

0+阅读 · 2011年12月31日

图像的薜定谔变换及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

LIGHTYEAR: Using Modularity to Scale BGP Control Plane Verification

Arxiv

0+阅读 · 2022年4月20日

Using Shapley Values and Variational Autoencoders to Explain Predictive Models with Dependent Mixed Features

Arxiv

0+阅读 · 2022年4月19日

FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks

Arxiv

1+阅读 · 2022年4月18日

Extracting Targeted Training Data from ASR Models, and How to Mitigate It

Arxiv

0+阅读 · 2022年4月18日

A Survey of Quantization Methods for Efficient Neural Network Inference

Arxiv

22+阅读 · 2021年6月21日

VIP会员