歪比歪比,歪比巴卜,神经网络也该用上加密“通话”了

2020 年 10 月 3 日 AI科技评论
作者 | 赛文
编辑 | 陈大鑫
AI科技评论今天解读的论文是近日获得BMVC 2020最佳论文奖亚军的论文:

《Key-Nets: Optical Transformation Convolutional Networks for Privacy Preserving Vision Sensors》

这篇论文为设计保护隐私的深度学习应用提供了一种范式。
现代相机的设计局限于当时的计算机硬件配置,在某些方面也是以人类的视觉体验来作为参考,并非以计算机视觉或机器学习作为目标应用,这种相机采集到的数据在机器学习推理过程中会出现泄露用户隐私的情况,来自Visym Labs和STR的研究者们提出了一种可以保护用户隐私的视觉传感器,该传感器只收集机器学习任务所需的信息,除此之外,本文还设计了一种与该传感器配套的卷积神经网络key-net。
这种视觉传感器可以对输入图像进行光学/模拟变换,经过变换的图像人类是无法理解的,但是key-net可以对其进行精确的加密推理,这在一定程度上保证了用户隐私的安全性,这种加密方式带来的计算代价也是非常容易接受的。
本文为设计保护隐私的深度学习应用提供了一种范式。
论文链接:https://arxiv.org/abs/2008.04469
代码链接:https://github.com/visym/keynet

1

动机 

计算机视觉技术在安防领域已经表现出相当大的优势,例如人脸识别和行人重识别等技术可以帮助公共场所的管理人员进行嫌疑人员的快速筛查,大大提高了他们的工作效率。
但是这些应用的数据来源都是传统的安防摄像头,而且是以非侵入性的方式捕捉人们的面部和身体信息。
这些图像数据会有相当一段时间存储在这些摄像头的内存中,这期间可能会出现用户隐私的泄漏,美国的一些城市已经禁止类似的人脸识别应用部署在公众环境中,IBM公司更是宣布停止人脸技术的开发。
另一方面,对于人脸识别应用,模型只需要一部分关键信息即可完成推理过程,但是传统摄像头会无法避免的捕捉到其他无关的周围背景信息,这既给模型推理带来了一定的干扰,还增加了其他用户隐私的泄漏风险。
有些工作将对抗学习原理引入到隐私保护网络的设计中,通过对图像执行退化处理或者加入一些噪声,如上图所示,并使用图像感知损失进行约束来完成对图像的加密,但是这些操作会影响原有算法的性能,迫使我们在隐私保护能力和模型性能之间寻找一个平衡点。
基于此, 本文直接对视觉传感器进行修改,在成像过程中就完成了对图像的加密处理,在根源上解决问题。

2

方法

为了在成像过程中对图像加密,需要设计一种新型的视觉传感器来代替传统的透镜成像设备,这种传感器可以由一系列具有衍射或反射特性的光学元件构成,这些元件的不同组合相当于为成像过程加上了一把锁,这就保证了摄像头捕获到的数据是经过硬件加密的,同时根据加密后的数据对传统的机器学习算法进行优化,构成一个具有隐私保护功能的机器学习系统,作者提出该系统的功能需要满足以下5点:
(1)捕获到的图像人类无法理解
(2)机器学习系统可以直接处理加密后的图像
(3)机器学习系统只能处理加密后的图像
(4)机器学习系统的参数也是加密的,攻击者无法获取或者重新使用
(5)图像经过加密,只有清楚物理硬件的加密规则才有可能将原始图像恢复出来

2.1 视觉变换网络

对网络进行加密,直观上的做法就是对网络各层的权重进行加密处理,权重加密由一个变化矩阵来实现,设加密函数为 需要满足五个充分条件,分别是
1、线性(充分不必要条件,因为目前也已经有一些基于非线性衍射的光学元件来对成像进行非线性转换);
2、正定矩阵,这表示计算是可逆的,也表示加密是无损的,如果定义 ,我们就可以通过 将原始采集到的图像恢复出来;
3、非负矩阵,非负矩阵的因式分解是一个NP难问题,这保证了加密的可靠性,攻击者很难得到加密矩阵,也就无法得到原始图像和原始权重;
4、满足非线性交换律,保证了加密网络中非线性激活函数的可用性;
5、稀疏性,限制了加密过程的计算量,保证了其在神经网络中端到端的性能。
下面考虑一个k层的卷积神经网络,
       
每一层的加密因子为 ,输入图像的加密因子为 (模拟传感器的光学加密),加密后的图像为  ,则卷积神经网络变为:
其中 表示某一层的权重加密结果,加密因子 及其逆 存在,这满足了上面的条件1和2。根据条件4,我们假设存在一个非线性激活函数 满足非线性交换律,
         
这个假设可以将加密因子直接消去,允许激活函数直接作用在加密网络上,而无需对网络作出其他修改,根据以上,加密网络中第i层的输出可以表示为:
其中线性层包括网络中的卷积层、全连接层、dropout层和平均池化层,这些层只需要给原有权重向量乘上对应的加密因子 即可,对于非线性激活层,由于条件3的存在,无需作出任何修改,网络示意图如下:
作者使用一个广义随机矩阵来拟合keynet,它由一个对角矩阵 和一系列置换矩阵的凸组合构成:
     
其中对角矩阵 可以将干扰噪声通过仿射变换 施加到图像上,而置换矩阵 是一个随机方阵,它的每行和每列都正好有一个元素为1,其他元素为0,它可以对图像执行像素级的随机组合和几何退化操作。由于构造的特殊性,广义随机矩阵恰好满足上面提出的五个充分条件。
下图是广义随机矩阵对图像进行变换的效果,从左到右表示置换矩阵的 的随机程度逐渐加大,图像像素值的随机组合效果也越明显,从上到下表示对角矩阵 的干扰噪声对图像的影响,两种效应共同作用,使得右下角生成的图像是人类无法理解的。
2.2 视觉传感器
本文设计的视觉传感器的基础元件是光纤束面板,光纤束面板是由一束多微米直径的光纤捆绑而成,并进行了抛光处理,这些光纤束可以用热塑性材料通过3D打印技术生成,下图展示了实现广义随机矩阵的光学元件设计,透镜首先将场景中的光场聚集到光纤束上,并将其传输到一个备用位置,然后由CMOS传感器进行观察,然后,在像素生成期间,将一系列光纤束实现模拟的广义随机矩阵作用在像素上,实现像素的重新随机组合并加入偏置噪声,最后将像素进行数模转换(ADC)得到最后的测量值。
     
3

实验

3.1 keynet必要性实验

作者将人脸识别和目标检测作为目标任务,人脸识别实验使用VGG-16网络,并在VGGFace上进行了预训练,目标检测实验使用在MS-COCO数据集上预训练的Faster R-CNN,假设存在一个图像退化函数,然后联合给定的预训练模型进行微调,使用对抗训练方式,一方面使图像退化函数最大限度的降低图像的质量,另一方面将目标任务的损失降到最低,如果这种联合训练的方式可以实现较好的效果,那本文的keynet也就失去了实用意义。
人脸识别实验
对抗任务的目标是尽可能的使图像退化,这里使用结构相似性(SSIM)指标描述图像退化的程度,实验结果如上图所示,随着图像质量的降低,人脸识别的Rank-1准确率也发生了下降,但是下降幅度为12%左右。
目标检测实验
上面的实验结果表明,对于人脸识别任务,可以通过这种联合训练的方式得到一个图像退化函数,性能损失也不是很严重,但是人脸识别任务首先需要从图像中将人脸检测出来,所以作者又进行了一个实验来评估是否可以在退化后的图像上检测人脸,检测器使用Faster R-CNN,并使用自然场景中的人脸数据进行了训练,在退化后的图像上检测率为0.0%,这表明检测器必须针对实际的端到端系统进行训练。
作者同样将对抗训练引入到目标检测实验中,主要的优化目标是80个物体类别的定位和分类,对抗任务是降低图像的SSIM,实验中共考虑了8种退化函数设置,精度下降幅度达到了55%左右,这种精度与退化程度的权衡是无法接受的,因此也证明了这种联合优化方式并不可行,证明了本文keynet的必要性。

3.2 keynet性能实验

性能实验中对不同量级的卷积神经网络进行了实验,分别是5层的LeNet(小型网络),11层的全卷积网络(中型网络)和VGG-16(大型网络),分别在MNIST和CIFAR-10数据集上进行了keynet的性能测试,将每种keynet所需的内存需求作为隐私参数 的函数,实验结果如下表所示
keynet相比原始baseline网络的内存占用增加了4-8倍,但是获得了与baseline相同的准确率,并没有明显的性能损失。

4

总结

本文提出了一种新型加密网络,这是目前第一个光学同态加密方案,可以用来设计隐私保护的视觉传感器,同时配套一个专用的加密卷积神经网络keynet可以有效的保护用户的隐私信息。实验数据也表明keynet不会带来过多的计算代价,作者也表明下一步工作会在GPU上进行加密运算的进一步优化。


[博文视点赠书福利]

在10月1日头条留言区留言,谈一谈你对这两本书的看法或有关的学习、竞赛等经历。

AI 科技评论将会在留言区选出15名读者,送出《阿里云天池大赛赛题解析——机器学习篇》10本,《集成学习:基础与算法》5本,每人最多获得其中一本。

活动规则:

1. 在留言区留言,留言点赞最高的前 15 位读者将获得赠书,活动结束后,中奖读者将按照点赞排名由高到低的顺序优先挑选两本书中的其中一本,获得赠书的读者请添加AI科技评论官方微信(aitechreview)。

2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。

3. 本活动时间为2020年10月1日 - 2020年10月8日(23:00),活动推送内仅允许中奖一次


AI科技评论现建立摸鱼划水群,供大家闲聊一些学术以及非学术问题(禁广告、禁敏感话题,群满请加微信aitechreview

点击阅读原文,直达NeurIPS小~

登录查看更多
0

相关内容

机器视觉通常用于分析图像,并生成一个对被生成图像物体或场景的描述,这些描述最终用于辅助或决定机器人控制决策。 一门基于计算机图像识别和分析的技术。主要用于自动检测,流程控制或机器人引导等。
专知会员服务
38+阅读 · 2020年12月1日
专知会员服务
112+阅读 · 2020年11月16日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
专知会员服务
124+阅读 · 2020年8月7日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
68+阅读 · 2020年3月5日
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
差分隐私保护:从入门到脱坑
FreeBuf
17+阅读 · 2018年9月10日
AI 和机器学习中暗含的算法偏见 | Linux 中国
Linux中国
3+阅读 · 2018年4月14日
Arxiv
2+阅读 · 2020年12月1日
Arxiv
0+阅读 · 2020年11月27日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
4+阅读 · 2018年3月30日
VIP会员
Top
微信扫码咨询专知VIP会员