题目: An Overview of Privacy in Machine Learning
序言: 在过去几年中,谷歌、微软和亚马逊等供应商已经开始为客户提供软件接口,使他们能够轻松地将机器学习任务嵌入到他们的应用程序中。总的来说,机构现在可以使用机器学习作为服务(MLaaS)引擎来外包复杂的任务,例如训练分类器、执行预测、聚类等等。他们还可以让其他人根据他们的数据查询模型。当然,这种方法也可以在其他情况下使用(并且经常提倡使用),包括政府协作、公民科学项目和企业对企业的伙伴关系。然而,如果恶意用户能够恢复用于训练这些模型的数据,那么由此导致的信息泄漏将会产生严重的问题。同样,如果模型的内部参数被认为是专有信息,那么对模型的访问不应该允许对手了解这些参数。在本文中,我们对这一领域的隐私挑战进行了回顾,系统回顾了相关的研究文献,并探讨了可能的对策。具体地说,我们提供了大量关于机器学习和隐私相关概念的背景信息。然后,我们讨论了可能的对抗模型和设置,涵盖了与隐私和/或敏感信息泄漏有关的广泛攻击,并回顾了最近试图防御此类攻击的结果。最后,我们总结出一系列需要更多工作的开放问题,包括需要更好的评估、更有针对性的防御,以及研究与政策和数据保护工作的关系。