图学习隐私与安全问题研究综述

虽然海量的现实需求为人工智能提供了广阔的应用场景，但要求人工智能系统适应复杂的计算环境．然而，传统人工智能算法的研究都假设其应用环境是安全可控的．大量研究和实践工作表明当前的人工智能技术普遍对外在风险考虑不足，相关数据和模型算法存在隐私与安全风险．由于人工智能安全的现实需求以及图学习的巨大影响，图学习的隐私与安全问题成为当前图学习领域面临的重要挑战．为此，研究人员近年来从图学习系统的各个环节出发对图学习隐私与安全问题进行了研究，提出了相关的攻击和防御方法．本综述首先阐述研究图学习隐私与安全的重要意义，然后介绍图学习系统的基本过程、图学习面临的主要隐私与安全威胁以及图学习的隐私与安全特性；在上述基础上，分别从图数据隐私、图数据安全、图模型隐私和图模型安全四个方面对现有研究工作进行系统的归纳总结，讨论主要成果和不足；最后，介绍相关的开放资源，并从数据特征、解释性、研究体系和实际应用等方面探讨面临的挑战和未来的研究方向．1. 引言通过观察从各个领域的复杂系统中收集到的数据资源可以发现，数据内部或数据之间往往存在潜在的关联关系，分析和挖掘这些关联关系可以帮助人们发现对象之间的依赖程度、理解群体的行为模式以及揭示系统的组织结构．近年来，大量研究实践表明图是建模这些不同来源、不同性质数据的强大工具，它可以通过对象集合以及它们之间的关系非常自然地对数据中的关联对象进行抽象表示［１３］．例如，在信号处理领域，可以利用图对时序数据进行表示，从而基于图挖掘实现信号的分类和异常检测［４］；在互联网领域，基于图可以表达用户与用户、用户与商品的关系，从而通过图挖掘实现个性化推荐、风险控制以及欺诈检测［５］；在知识服务领域，基于图构建知识图谱可以描述知识和建模世界万物之间的关联关系，从而利用图算法进行知识推理、提供自动问答等智能服务［６］；在计算机视觉领域，通过属性关系图可以表示图像中局部视觉特征以及它们之间的空间关系，从而基于图挖掘来实现对视觉数据的学习［７］．因此，图刻画着对象之间的复杂关联关系、形成了海量的图数据，并通过异常检测、信息推送、智能导购、征信分析等服务深刻改变着人们的工作和生活．

1.1 图学习隐私与安全

面对图数据资源开发利用的现实需求，数据的开放共享成为数据产业发展的重要基础．然而，图数据中往往存在不愿意被公开的敏感信息，直接开放共享会增加敏感信息的泄露风险．例如，在社交网络领域，服务提供商在为用户提供个性化信息推送服务的同时，可能基于图挖掘推理用户的生活习惯、政治偏好等［８９］；在电子商务领域，电商平台在为用户准确推荐商品的同时，可能通过图挖掘推理用户的收入水平、人口属性等［１０］；在城市交通领域，地图应用提供商在提供位置服务的同时可以通过图挖掘轻易获取个人的居住和工作地点［１１-１２］．为了推动数据的开放共享，传统研究领域提出了k匿名、l多样性、t贴近性（等数据隐私保护技术．然而，与传统关系型数据相比，图数据存在内部关联性，并且其中的任何关于节点、链路、子图的信息都可以被恶意攻击者用作背景知识，极大地增加了图数据的隐私泄露风险，从而以上传统隐私保护方法难以应对图数据开放共享面临的挑战．面对图数据的建模学习需求，研究领域已经提出了各种图模型算法．例如，为了根据拓扑结构进行图数据的分析计算，网页排名（ＰａｇｅＲａｎｋ）、标记传播（ＬａｂｅｌＰｒｏｐａｇａｔｉｏｎ）、随机行走（ＲａｎｄｏｍＷａｌｋ）等融合传播和迭代更新机制的图模型被提出．为了对图数据进行建模推理，基于最大似然估计的图结构预测方法被提出［１９］．假设图数据中存在块状结构，随机分块模型（ＳｔｏｃｈａｓｔｉｃＢｌｏｃｋＭｏｄｅｌ）被提出［２０］．另外，非负矩阵分解、鲁棒性主成分分析、低秩稀疏等矩阵分解模型被应用于图数据的建模与预测［２１２２］．为了进一步实现图数据的建模学习，近年来以图神经网络（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ，ＧＮＮｓ）［２３］为代表的大量新型图模型算法被提出，图学习（ＧｒａｐｈＬｅａｒｎｉｎｇ）领域应运而生，各个图模型的详细介绍见文献［２４２５］．基于丰富的数据资源和广泛的智能设备，各行各业为图学习系统提供了丰富的应用场景，同时也要求图模型算法能够适应现实场景中复杂的计算环境．然而，近年来的研究表明图学习模型具有极高的脆弱性，恶意攻击者可以通过改变图结构或节点属性影响图学习模型的性能［２６２７］或者通过查询窃取图学习模型及其训练数据［２８］．从而，当前的图模型算法普遍缺乏与复杂计算环境相对应的理论基础和计算机制、鲁棒可信性不足，其现实应用的安全挑战十分突出．例如，在金融领域，攻击者可以通过攻击图模型使金融风险控制系统难以发现高风险的金融交易；在电子商务领域，攻击者可以通过伪造与高信用客户的链接关系攻击图模型算法从而提高信用评分系统对欺诈者的信用评分；在社交网络领域，攻击者可以通过创建假粉丝和假关注欺骗图模型算法以降低在线社交网络中垃圾信息发送者的可疑性．因此，面对图学习的广泛影响以及安全可信的迫切需求，图学习隐私与安全问题研究有着十分重要的现实意义．图学习以图数据为对象，图数据具有非欧氏性、离散性、关联性等特征．同时，与图像处理和自然语言处理等领域不同，在图数据中的任何操作只能以节点和链路为单位．另外，与传统机器学习领域学习任务以归纳式学习（ＩｎｄｕｃｔｉｖｅＬｅａｒｎｉｎｇ）范式为主不同，图学习中典型学习任务主要以直推式学习（ＴｒａｎｓｄｕｃｔｉｖｅＬｅａｒｎｉｎｇ）为主．因此，现有的针对图像处理、自然语言处理相关方法的攻击与防御技术无法直接适用于图学习模型，图学习系统面临的隐私与安全问题与传统机器学习领域的隐私与安全问题不同，具有其自身的独特性．

1.2 本文贡献与章节组织

随着大数据、人工智能隐私与安全问题的逐渐暴露，公众的防护意识日益增强．尽管近年来图学习的隐私与安全问题受到了研究领域的逐渐关注，但仍然面临诸多不足．例如，虽然人工智能领域对学习模型的安全问题进行了研究，但当前存在的攻击与防御方法主要集中在图像处理领域，关于图学习的研究工作相对较少；图数据的隐私保护与图模型的隐私与安全紧密相关，然而相关研究工作对它们缺乏深入的整体性思考；图数据的非欧式性导致传统文本、图像等领域的理论方法无法直接适用于图模型，图学习的隐私与安全问题仍然缺乏系统性的研究体系．本文的主要贡献可总结如下：（１）搜集整理了国内外期刊和会议上发表的相关文献，系统分析了最新的、特别是近５年关于图学习隐私与安全的研究成果；（２）整体考虑数据与模型的隐私、安全风险，提出了基于图学习系统基本过程的系统化图学习隐私与安全研究框架；（３）将已有的研究工作按照图学习系统面临的隐私与安全风险分为四类：面向图数据隐私的攻击与防护方法、面向图数据安全的攻击与防御方法、面向图模型隐私的攻击与防御方法以及面向图模型安全的攻击与防御方法，详细分析了各类方法的机理和执行过程，对典型算法的机制、优缺点、复杂度和适用场景进行了讨论．（４）总结了开源社区贡献的图学习隐私与安全的相关代码资源，分析了面临的研究难点和未来挑战，有助于后续研究人员更好地进行安全可信图模型算法的设计和验证．本文第２节概述图学习隐私与安全基础框架；第３节至第６节分别阐述各类图学习隐私与安全方法，介绍代表性算法和相关研究进展；第７节梳理相关开放资源；第８节讨论图学习隐私与安全研究面临的难点及未来挑战；第９节总结全文．

２图学习隐私与安全基础框架

图学习系统的基本过程图学习隐私和安全问题与图学习系统的基本过程紧密相关．为了清晰地进行图学习隐私与安全的分析研究，需要对图学习系统进行介绍，图学习系统的基本框架如图１所示．一般而言，图学习系统主要包含以下过程：

（１）数据采集与表示

根据目标对象的不同，图学习系统通过传感器、爬虫、实验设备、日志记录等方式获得原始数据．然后，分析采集到的数据中对象以及对象之间的潜在关联关系，并通过图进行表示．例如，文献［３７］对新闻报道数据进行图表示，将报道国和被报道国定义为节点，将报道关系定义为有向边．文献［３８］计算脑电图中电极序列之间的功能连接关系，从而获得脑网络的图表示．

（２）模型选择与训练 此阶段基于可用图数据对图模型进行训练以获得隐含的模式规律，从而实现图分类、节点标记、链路预测等任务．根据图模型的特点可以将其分为归纳式学习和直推式学习两大类．其中，归纳式学习是指训练数据与测试数据完全独立的学习过程，将学习好的模型应用于测试数据，常见于图分类等任务．直推式学习是指在训练阶段模型对训练数据和测试数据全部可见，将可用数据全部用于学习过程，常见于节点标记、链路预测、社团检测等任务．

（３）模型应用与输出

经过训练、测试的图模型即可被用于分类、预测等任务，从而通过开放服务接口对外提供推荐、查询、问答等智能服务．需要注意的是，对于直推式学习范式，模型的应用输出和学习训练是紧密融合的，不存在独立的模型应用与输出过程．例如，对基于矩阵分解模型的链路预测方法［２１］，在学习数据模式规律的同时进行潜在链路的推理预测．

３面向图数据隐私的攻击与防御方法

隐私保护的基本思想是在尽可能保持原始数据不变的条件下对敏感信息进行隐藏，使得攻击者无法通过背景知识对被隐藏的敏感信息进行重识别攻击．图数据隐私保护与节点、属性和结构紧密相关，本节主要介绍代表性的图数据隐私攻击行为和近年来提出的经典的图数据隐私保护方法．表１是对图数据隐私保护方法的一个小结．数据隐私保护问题近二十年来得到了研究领域较为充分的探索，图数据隐私保护也得到了较多的关注，其中数据扰动方法简单易实现，但发生隐私泄露的风险较高．犽匿名、聚类方法以及差分隐私方法能够提供更高水平的隐私保护，但聚类方法对数据效用的影响较大，犽匿名和差分隐私方法能够提供确定水平的隐私保护，但它们复杂度较高．总体上，由于图数据隐私保护场景的复杂性、背景知识的不可控性以及要求保持数据效用等原因，仍然还有待提出效率更高、适用性更好的图数据隐私保护方法．

４面向图数据安全的攻击与防御方法

图数据安全关注图模型训练数据的窃取与泄露风险．特别是对于提供开放服务的图学习系统，恶意攻击者可能基于系统的输出结果窃取模型的训练数据或者确定训练数据集中的成员信息，从而暴露敏感信息、侵害服务提供商的合法权益．

５面向图模型隐私的攻击与防御方法

在智能服务系统中尽管智能服务接口是开放的，但其后台学习模型是私有和保密的．然而，研究表明攻击者可以通过开放的服务接口ＡＰＩ（获取模型的参数、架构、功能等信息，从而造成模型机密信息的泄露．研究领域将以上无需训练数据和模型背景知识，通过开放ＡＰＩ获得模型架构、参数的过程定义为模型萃取攻击．此攻击通过构建查询输入并获得相应的模型输出形成输入、输出数据集．这样的数据集能够反映目标模型的内在特征．在理想情况下，只要构建了充分覆盖目标模型输入空间的样本数据并获得相应的输出结果，就可以复制目标模型．根据目标模型的复杂度不同，模型萃取攻击可以分为“简单模型精确提取”以及“复杂模型近似提取” 两大类．对于决策树、逻辑回归、支持向量机等简单模型，其数学定义清晰，模型萃取攻击只需要获得充分的输入、输出对，即可通过方程求解的形式推理模型参数和超参取值，获得较准确的目标模型．相对的，对于深度学习、强化学习、集成学习等复杂模型，无法通过明确的数学公式进行形式化定义，模型萃取攻击需要通过输入、输出数据集间接刻画目标模型的内在特征，然后基于此数据集训练替代模型以近似目标模型的功能．模型萃取攻击的基本架构如图１０所示．

６面向图模型安全的攻击与防御方法

在传统机器学习领域，模型算法主要应用于企业内部，训练数据和模型输入都是安全可控的．然而，越来越开放的智能应用使模型算法面临不可信、甚至恶意对抗的计算环境．例如，攻击者可以通过改变训练数据以形成不准确、有缺陷的模型算法．攻击者可以蓄意构造输入数据从而欺骗目标模型．因此，各种各样的对抗攻击行为使得图模型面临严重的安全风险。

7 总结

当前，万物智能互联的应用场景使人工智能面临严重的安全威胁，直接影响智能系统的实际应用．要促进人工智能产业的蓬勃发展，就必须解决好复杂条件下数据与模型算法的安全防护问题．图学习作为人工智能的重要领域之一，由于图数据以及图学习模型的泛在性，进行图学习的隐私与安全问题研究具有十分重要的意义．然而，当前研究领域对图学习隐私与安全的研究存在理论框架和评价体系缺乏、对图模型攻击与防御机理认识不足等问题．为此，本文对近年来图学习隐私与安全的相关研究工作进行梳理归纳，从数据隐私、数据安全、模型隐私和模型安全四个方面分析讨论了存在的研究成果，理清了主要方法及其优势与不足．同时，介绍了相关的开放资源和实验平台．最后，指出当前研究面临的主要困难并展望了图学习隐私与安全问题未来可能的研究方向．

成为VIP会员查看完整内容