近年来,数据的融合应用驱动各行各业走向数字化、网络化和智能化,数据安全、个人隐私保护等问题也愈发受到社会广泛关注。如何在合规的前提下做好数据融合,成为一个亟需解决的难题。
近期,腾讯公司发布《腾讯隐私计算白皮书2021》(以下简称《白皮书》),深入探讨隐私计算作为在数据融合应用过程中保障数据安全合规的关键技术路径、商业模式、应用场景、技术变革、产业趋势、法律问题及合规痛点,并从技术、应用、法律等视角对隐私计算的发展进行了展望。
1、隐私计算的定义
隐私计算(Privacy Computing)是指一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下通过协作对他们的数据进行联合机器学习和联合分析。隐私计算的参与方既可以是同一机构的不同部门,也可以是不同的机构。在隐私计算框架下,参与方的数据明文不出本地,在保护数据安全的同时实现多源数据跨域合作,以破解数据保护与融合应用难题。
2、隐私计算三大流派
联邦学习
联邦学习是一种分布式机器学习技术和系统,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,可以在各方数据不出本地的情况下联合多方数据源建模和提供模型推理与预测服务。在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不露出。联邦学习可以通过同态加密、差分隐私、秘密分享等提高数据协作过程中的安全性。
安全多方计算
安全多方计算是一种在参与方不共享各自数据且没有可信第三方的情况下安全地计算约定函数的技术和系统。通过安全的算法和协议,参与方将明文形式的数据加密后或转化后再提供给其他方,任一参与方都无法接触到其他方的明文形式的数据,从而保证各方数据的安全。安全多方计算的基本安全算子包括同态加密、秘密分享、混淆电路、不经意传输、零知识证明、同态承诺等。
可信计算
可信计算指借助硬件CPU芯片实现可信执行环境(TEE),从而构建一个受保护的“飞地”(Enclave),对于应用程序来说,它的Enclave 是一个安全的内容容器,用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。
3、隐私计算的应用场景
《白皮书》中提到,数据协作需求正推动隐私计算应用从金融、医疗等向其他行业延伸。以金融反欺诈模型为例,隐私计算能够助力银行联合建模,提升反欺诈模型水平。传统上,银行通常基于历史还款信息、征信数据和第三方的通用征信分来做贷前反欺诈,该方式存在数据维度缺乏、数据量较少等情况,需融合多方数据联合建模才能构建更加精准的反欺诈模型,但这一过程中隐私保护和数据安全是不可忽视的重要环节,《白皮书》指出,联邦学习可解决合作中数据隐私与特征变量融合矛盾,在双方或多方合作中线上保障特征变量交换时的信息安全。
4、隐私计算助力数据安全的合规价值
《白皮书》指出,隐私计算助力数据安全合规的价值凸显,有望成为数据协作过程中数据合规和隐私保护的技术工具。
一是隐私计算在无需转移数据物理存储服务器的情况下实现数据建模分析,从而减少数据协作过程中风险。对于个人信息保护来说,可以有效降低个人信息在应用过程中泄露的风险;对于企业的跨界数据合作而言,由于隐私计算能够实现数据可用不可见,帮助不同企业和机构与产业链上下游的主体进行联合分析,打造数据融合应用,同时在数据协作的过程中履行数据安全和合规义务,实现数据价值最大化。
二是隐私计算从技术层面满足数据最小化、完整性和机密性原则要求。传统的数据融合方式需要先将尽可能多的数据集中至一个数据中心,然后再训练模型。因此很可能存在数据过度采集的问题,同时面临数据传输、存储的安全风险。而采用隐私计算技术,尤其是隐私计算和区块链等技术结合形成的整体解决方案,对数据真实性、准确性进行记录,如数据被篡改、可进行精准定位和追溯,防止数据被篡改,也能够有效防止数据被无权限人员随意访问、修改、导出等,保障数据的完整性和机密性,与当前数据保护相关立法目的和原则高度契合。
三是隐私计算可证明、记载企业是否履行数据安全保障义务。
5、隐私计算的合规痛点
尽管隐私计算实现的数据保护功能与数据保护相关立法精神高度契合,具有广阔的发展前景,但隐私计算仍存在一些合规痛点。
隐私计算的用户授权机制仍需明确。
根据《网络安全法》及《民法典》相关规定,数据处理者在处理数据时应公开收集、使用规则,并经用户同意。从隐私计算的特点来看,数据合作方通过隐私计算技术实现数据分析与建模,不需实际流转数据,且处理过程中的数据都进行了匿名化处理,或不需要获得用户授权同意。但在数据采集阶段,数据合作各方仍需获得用户授权同意。此外,个人信息的匿名化标准尚存争议,因此仍需做好告知同意的授权管理。
另外,《白皮书》指出,隐私计算在本地服务器中建模的行为也存在用户授权的问题。即使企业在采集数据时通过隐私政策取得了用户对本地建模行为的授权,但该授权仍需保持在与数据实际处理目的直接或合理关联的范围内。因此,在借助隐私计算技术解决用户授权问题时,也需关注数据处理目的合法合规性。
隐私计算仍存在数据安全风险。
隐私计算尽管无需参与者直接共享原始数据,但模型更新仍然会泄露参与者训练数据的相关信息,攻击者可以采用推理攻击判断具体的数据点或数据属性是否被用于训练,或采用逆向学习的方法还原原始数据。如果有切实的证据证明经过隐私计算的数据结果具有可逆性且已被泄露,那么它便不再属于法律规定的“经过处理无法识别特定个人且不能复原”的数据。因此,企业需从模型隐私、输入隐私、训练数据隐私、输出隐私四方面保障数据的安全。
隐私计算参与各方权利义务的边界有待进一步明确。隐私计算涉及个人信息主体、数据持有方、计算方、结果方,各方之间的法律关系尚需厘清,如发生数据泄露且溯源取证困难时,后三者间应如何进行责任划分,这些都将影响隐私计算商业模式的发展。《白皮书》建议在现阶段,隐私计算参与者宜通过协议方式,约定彼此的数据安全权利和义务边界,以便在发生争议时,明确各自的责任范围。
https://www.cebnet.com.cn/upload/resources/file/2021/04/19/176342.pdf