机器学习的安全问题及隐私保护

2020 年 12 月 20 日 专知

近年来，机器学习迅速地发展，给人们带来便利的同时，也带来极大的安全隐患.机器学习的安全与隐私问题已经成为其发展的绊脚石.机器学习模型的训练和预测均是基于大量的数据，而数据中可能包含敏感或隐私信息，随着数据安全与隐私泄露事件频发、泄露规模连年加剧，如何保证数据的安全与隐私引发科学界和工业界的广泛关注. 首先，介绍了机器学习隐私保护中的敌手模型的概念; 其次总结机器学习在训练和预测阶段常见的安全及隐私威胁，如训练数据的隐私泄露、投毒攻击、对抗攻击、隐私攻击等.随后介绍了常见的安全防御方法和隐私保护方法，重点介绍了同态加密技术、安全多方计算技术、差分隐私技术等，并比较了典型的方案及3种技术的适用场景.最后，展望机器学习隐私保护的未来发展趋势和研究方向.

依托于云计算、物联网、大数据技术的发展，以数据挖掘和深度学习为代表的人工智能技术正在改变人类社会生活，并成为先进科技应用的代表和社会关注的热点.作为引领未来的战略性技术，人工智能技术被世界各国纷纷提升为发展国家竞争力、维护国家安全的重大战略.

机器学习是一种实现人工智能的方式，是近些年主要研究的领域.目前机器学习方案在很多领域都有着成熟的应用，如天气预报、能源勘探、环境监测等，通过收集相关数据进行分析学习，可以提高这些工作的准确性；还有如在垃圾邮件检测、个性化广告推荐、信用卡欺诈检测、自动驾驶、人脸识别、自然语言处理、语音识别、搜索引擎的优化等各个领域，机器学习都扮演着重要的角色.然而，蓬勃发展的机器学习技术使数据安全与隐私面临更加严峻的挑战，因为机器学习的更精准模型需要大量的训练数据为支撑.

自2013年斯诺登的“棱镜”事件以来，全球信息泄露规模连年加剧，引起社会的广泛关注.2016年9月Yahoo被曝出曾被黑客盗取了至少5亿个用户账号信息；2017年微软Skype软件服务遭受DDOS攻击，导致用户无法通过平台进行通信；2018年3月美国《纽约时报》和英国《卫报》均报道：剑桥分析(Cambridge Analytica)数据分析公司在未经用户许可的情况下，盗用了高达5千万个Facebook的用户个人资料[1].2019年美国网络安全公司UpGuard发现上亿条保存在亚马逊AWS云计算服务器上的Facebook用户信息记录，可被任何人轻易地获取；IBM在未经当事人许可的情况下，从网络图库Flickr上获得了接近100万张照片，借此训练人脸识别程序，并与外部研究人员分享[2].2020年4月《华盛顿邮报》报道视频会议软件Zoom存在的重大安全漏洞：数以万计的私人Zoom视频被上传至公开网页，任何人都可在线围观，很多视频都包含个人可识别信息，甚至是在家里进行的私密谈话[3].信息泄露的途径主要分为内部人员或第三方合作伙伴泄露、信息系统无法杜绝的漏洞、机构本身的防护机制不健全、对数据的重要程度不敏感，以及对安全配置的疏忽大意等.可见，数据隐私的泄露已不单单是满足某些外部人员好奇心所驱使，而是已成为一种重要的商业获利而被广泛关注，其中不乏内外勾结、合谋获取用户的隐私等行为.