来源“蚂蚁科技集团股份有限公司、隐私计算联盟”
9月26日,业内首份《可信密态计算白皮书》(以下简称《白皮书》)全文正式发布。白皮书对数据流通行业的趋势、可信密态计算(TECC)技术体系,以及应用场景和未来发展方向进行了深度剖析。
编写过程中,蚂蚁集团在隐私计算联盟指导下,与众多行业专家共同进行了深入探讨,希望通过白皮书为数据密态时代的技术发展提供框架和指引,加快新兴技术的推广普及。
《白皮书》指出,随着我国《关于构建更加完善的要素市场化配置体制机制的意见》、《关于构建更加完善的要素市场化配置体制机制的意见》、《“十四五”数字经济发展规划》等政策文件支持数据要素的发展,数据流通成为必然趋势。在《数据安全法》、《网络安全法》、《个人信息保护法》、《密码法》、《民法典》等法律法规要求、行业对网络与数据安全的诉求,以及技术成熟度上,整个数据流通领域即将告别数据明文时代,开启数据密态时代。
数据密态指的是数据以密态形式流通,实现数据流转、计算、融合、制造、销毁的全链路安全可控。数据密态时代的核心是:数据要素安全可靠地流转,需要经过严谨专业的安全评估、保护和检验,并不是简单地做一些脱敏、加密处理,就能够保护数据的安全。
数据密态时代,每个阶段的技术要求和应用侧重不同,需要经历三个发展阶段,依次是:“计算密态化”、“大数据密态化”、“数据要素密态化”。
“计算密态化”阶段,各个机构出于业务发展的急迫需求,在相对简单的几个场景开始尝试密态计算,计算逻辑相对固定且复杂度有限。主要目的是在保护自身数据可用不可见的前提下,获得更有价值的计算结果。在此阶段,由于技术的限制,数据的持有权和使用权往往还不能有效分离,对于多个参与方以及复杂中间结果的管控支持也比较欠缺。
在“大数据密态化”阶段,各个机构开始全面使用密态计算获得收益,无论是要处理的数据规模还是复杂程度将远高于第一阶段。在这一阶段,数据密态处理将越来越多地呈现出大数据处理的特点,包括支持任意多的数据参与方,对大量中间结果进行存储和管理以供后续的环节使用,以及提供大规模、高性能、复杂逻辑处理能力。为了达到上述目的,需要做好数据持有权和使用权的分离,以及使用权的受控让渡。“权限分离”指的是明文原始数据仅由数据合法持有者拥有,其他机构能够在不拥有数据持有权的情况下获得数据的受控使用权,以有效的激发数据要素价值。“受控让渡”指的是获得使用权的机构仅能进行授权的计算,而不能使用数据进行任意计算,以防止数据要素被滥用。
在“数据要素密态化”阶段,数据将会在全行业、全社会进行广泛和深入的流动,一次密态计算可能包含同行业、跨行业的大量机构的数据,一份数据也可能会流经多家机构并且在流动的过程中不断演进。此阶段,除了要支持数据在更多参与方之间进行流通,还需要支持多个密态平台的互联互通,以及解决数据广泛流通所需的定价、收益分配等问题。
目前,密态时代仍处于第一阶段,未来有着极其广阔的发展前景。同时,密态时代发展所面临的技术挑战既涉及的维度多,又有非常大的难度。因此,密态时代需要一个兼顾高安全、高性能、高稳定性、高适用性、低成本等多方面能力的技术方案,为数据价值的充分挖掘提供坚实底座。
在技术要求方面,数据密态时代到来的标志性事件有五个衡量标准:一是性能强大,要达到每小时处理亿级数据;二是可靠稳定,在关键应用领域要够达到99.99%的标准;三是成本足够低,要让企业普遍负担得起;四是适用性广,要做到覆盖全场景和支持不同处理逻辑;五是安全性足够高且达成行业共识。
数据密态时代的底层支撑技术除了要在安全性、性能、成本、适用性和可靠性上满足规模化应用的需求,还要能够支撑任意多的参与方、支持复杂的运算逻辑,以及像明文大数据平台一样对密态数据进行管理、支持数据持有权和使用权分离等。
关于隐私计算实现的数据安全,行业共同认为现有技术基本能够满足特定场景的隐私计算需求,但是对于目标数据量大、参与方多、场景多样的数据中心,单一的技术显现出了不足。经过研究发现,将可信执行环境和密码协议结合,能够很好地对现有技术进行互补,获得更为优秀的综合能力,这一技术发现通过可信密态计算(TECC)得到了实现。
可信密态计算(Trusted-Environment-based Cryptographic Computing,简称TECC),是指将数据以密态形式在高速互联的可信节点集群中进行计算、存储、流转的一种可信隐私计算技术,实现数据持有权有效保障、使用权出域可控,支撑任意多方大规模数据安全、可靠、高效地融合与流转。TECC具有可信节点内进行密态计算、数据持有方与计算方的解耦、域外可控的数据密态封装等基本特征,可以通过安全编程语言、形式化验证、多级别可信节点等进一步提升安全性和适用性。
可信节点内进行密态计算:任一可信节点分区内仅出现密态数据,没有任何明文信息,使得TECC可以抵御硬件漏洞、增加防御纵深。可信节点提供的安全隔离环境和远程认证代码逻辑的能力,使得TECC可以抵御合谋攻击、恶意敌手攻击。
数据持有方与计算方的解耦:解除因数据持有方直接交互带来的公网传输限制,突破性能瓶颈;计算逻辑不受数据持有方的数量、数据分割形式等影响,突破适用性瓶颈。
域外可控的数据密态封装:将密态数据和使用规则封装在一起,确保密态数据在脱离数据持有方物理区域后仍然不会被窃取且只能按指定规则使用。此特性是构建密态大数据平台、多平台的互联互通的核心。
安全编程语言和形式化验证:采用安全编程语言、形式化验证等手段,确保内存安全、密码实现一致性等关键安全属性。
多级别可信节点:允许采用包括软件、TPM、TEE等在内的多种可信技术,适应不同的安全性和成本需求。
容忍部分节点被攻破:单个或少数可信节点分区被攻破,不影响安全性。可通过将风险节点放置在同一分区抵御供应链攻击。
TECC在架构设计上包含了参与方层、调度管理层、分布式计算层、运行环境层、数据层和硬件层。
参与方层,包含数据提供方和数据使用方,并且不限制这些参与方的数量。调度管理层主要是将用户的请求调度至多个分布式可信计算节点,进行并行计算。分布式计算层主要是通过密码协议完成目标运算。运行环境层通过使用各种可信计算环境技术,为分布式运算层提供安全的运行环境。数据层通过密态胶囊技术,保证数据在离开数据提供方物理区域后,仍然受到严格管控,不会被窃取或者滥用。硬件层提供了可信环境所需的硬件以及计算加速硬件。
数据提供方能够通过技术手段精准地知道TECC的运行逻辑,并确保TECC运营方无法窥探和滥用数据;TECC使用可信计算技术、安全编程语言和形式化验证、密码协议等分别缓解了恶意敌手攻击和合谋攻击等常见的算法安全问题、内存安全等常见的软件漏洞、侧信道攻击和供应链攻击等常见的硬件安全隐患,再加上使用全栈可信技术保障运行环境安全,最终能够抵御现实中会出现的攻击。
超高的内网带宽解除了网络瓶颈、轻量级的密码协议解除了计算瓶颈,加上并行化技术的运用,使得TECC能够达到与明文相近的计算性能。TECC能够在1个小时内完成亿级样本的密态建模和分析,在10分钟完成亿级行数的密态数据分析。
无论多少个参与方,参与方之间的数据分割形式是什么样的(数据分割形式指的是每一方拥有的数据是整体的哪一部分),TECC都是先将参与方的密态数据合并成一个大的密态数据集合,在之上进行完全相同的密态运算。所以这些情况下TECC的代码都是一样的。
TECC计算成本与明文分布式计算成本相比增加不超过一个数量级,并且不需要额外的公网或者专线成本。跨网交互的减少,使得TECC可靠性风险也大幅度降低。TECC的多节点部署模式,能够实现冗余备份和异地容灾,可靠性可达99.99%-99.999%。
TECC将密态数据、数据血缘和权限管理组合成数据密态胶囊,使得密态数据在离开数据提供方的物理区域后,仍然被有效的管控。数据密态胶囊内的授权规则是被强制验证的,外界既无法篡改该规则,也无法绕开该规则使用密态数据。
可信密态计算(TECC)目前已经在蚂蚁集团得到了成熟应用,实现了金融级的安全和稳定性验证。实践结果表明,TECC可以高效完成隐私求交、隐私保护机器学习、密态数据分析。
在隐私求交案例中,TECC使用计算量较低的密态比较替代了复杂的非对称运算,性能得到大幅提升。在隐私保护机器学习案例中,TECC使用了全流程密态计算,包括训练、离线预测、实时预测等环节。在密态数据分析案例中,TECC通过支撑标准的接口,能够让大量业务人员快速地使用到密态计算能力。
TECC支持任意多的参与方、支持复杂的运算逻辑的特性,还能在综合性密态数据中心(如东数西算)等得到应用。
在综合性密态数据中心中,通过数据胶囊等能力,形成了一个集密态计算、密态存储、全流程管控等综合能力的计算中心,服务于东数西算等大规模的场景。在实测中,TECC可以在分钟级完成亿级ID求交、千万级XGboost隐私机器学习训练、5000万行密态排序。这一性能可以充分满足产业规模化落地的需求。
关于TECC未来的技术演进方向,白皮书研究小组经过调研论证发现,TECC的网络、计算资源情况与MPC/FL有很大不同,如果要让TECC的性能达到极致,需要根据这些情况调整或重新设计密码算法。
作为TECC的底层基础,TEE应采用一些方法最大程度上提升自身的安全性,例如采用安全的编程语言、形式化验证、避免采用一些有安全隐患的性能优化方法等。
TECC的目标是支持大规模的密态运算,要求TEE能够支撑高性能的运算,包括高速的运算能力、高吞吐的I/O、大内存等,未来还应该支持GPU等专有硬件加速。
可信密态计算(TECC)核心创新之处在于,将密码学协议、可信计算技术和全栈可信技术相结合,获得了显著更高的综合能力,将多个参与方、一个行业或者多个行业的数据以密态的形式汇聚起来,为密态时代发展提供核心能力。
《白皮书》中多次提到,可信密态计算的演进和优化,离不开技术融合、密态生态的发展。TECC是多种技术融合的创新,整体技术成果的演进,也需要支撑性技术的提升,如TEE系统,需要更加成熟的、可供产业使用的TEE种类。而广泛使用的机器学习生态和数据分析生态,包括Pandas、Ray、Spark、SQL、NumPy等,机器学习类包括TensorFlow、PyTorch、sklearn等,都能支撑TECC为明文计算提供对应的密文计算。
作为可信密态计算的首创和发起方,蚂蚁集团非常愿意与社会共享技术成果,共同推动行业安全和隐私技术体系前行,构建完整的数据流通基础设施,推动数据要素市场的建设和发展。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
专知,专业可信的人工智能知识分发
,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!
点击“
阅读原文
”,了解使用
专知
,查看获取100000+AI主题知识资料