如果这种联邦学习方法或方案能再加上一个前缀——「基于 TEE」,那么它还会收获更多强化功能,例如它可以通过硬件环境上的隔离,使安全保护机制独立于软件应用、操作系统或硬件配置之外,使其保护的对象可以更好地应对来自硬件驱动程序、虚拟机乃至操作系统的攻击。再如,它的用途,不仅仅是可以提供数据运行态全链路的保护,来确保数据中的机密、隐私和完整性得到更强的防护,它还能对指定的应用程序或算法的代码进行同样可靠的防护;又如,它还拥有更完备的远程鉴权能力,能让相关数据和密钥的传递更为可靠;最后,相比那些非硬件加速支持的联邦学习及多方隐私计算方案,有 TEE 加持的方案,往往在兼顾安全防护能力和提升数据处理性能上有更好的表现。 正是这些优势,给了众多医疗科研机构选择基于 TEE 构建自己的联邦学习系统的理由。 以多年来一直深耕医疗 AI 与大数据技术创新的医渡云为例,这家公司基于联邦学习等隐私计算方法打造了一个多方安全计算解决方案, 自下而上包含面向院内外业务系统的数据采集系统、进行数据加工治理的专病库以及开展多方隐私计算的安全计算平台等几个部分,其中的多方安全计算平台也支持 TEE 方式进行构建。
医渡云多方安全计算解决方案整体架构 而且,他们采用的是实现 TEE 的一种主流技术——英特尔® 软件防护扩展(Intel® Software Guard Extensions,英特尔® SGX)。
英特尔®SGX技术实际作用示意图 在工作时,SGX 技术会给相关数据分配一块隔离区域,也叫「飞地(Enclave)」。我们可以把它理解成一个隔离医院,但能入驻这个医院的并不是已经被感染的患者,而是那些健康群体,即需要受到严密保护的应用代码或关键数据。SGX 技术能在 CPU 的支持下,在内存等特定硬件环境中构建出这样一个飞地,让各医疗科研机构的数据分析、模型训练及推理所涉及的数据都运行在各自的飞地中,并通过访问控制为这些应用代码和数据提供更可信赖的安全保障。 这种飞地独立于操作系统、虚拟机以及 BIOS 系统之外,也就是说,即便一些比你的应用程序更底层的基础软件或系统在恶意攻击中沦陷,飞地也可以通过基于硬件的、增强型的安全防护更有效地阻断这些攻击,尽力避免其中的数据或代码被窃取或篡改。 那么,这个「飞地」有多大呢?这和你要使用的英特尔处理器的种类及型号有关。医渡云解决方案使用的是英特尔去年发布的面向单路和双路服务器的第三代至强® 可扩展处理器,它已经全面内置 SGX 技术,可在双路服务器上实现最大容量为 1TB 的保留加密内存区域(Enclave Page Cache,EPC,单颗处理器最高支持 512GB),这对于医疗科研机构进一步扩展 AI 模型训练与推理的数据规模至关重要。 不过,如果你以为医渡云的方案仅仅是要借 SGX 技术来实现更大、更强的安全「飞地」的话,那就是小看了全新至强® 可扩展处理器在 AI 实践中的价值了——它除内置有 SGX 技术外,还有来自英特尔® 高级矢量扩展 512(英特尔® AVX-512)技术和英特尔® 深度学习加速(英特尔® DL Boost)技术的加成,也可在兼顾更优安全能力的同时,为医渡云方案涉及的复杂计算需求提供有力支撑。 因此这款处理器在医渡云的多方安全计算解决方案中同时发挥着加固安全与提升性能的双重价值。正是得益于它带来的综合优势,医渡云已经开始支持多家医院和医疗科研机构开发一系列基于该方案的联合研究项目,同时也通过了中国信息通信研究院在隐私保护计算技术上的两项认证——《基于多方安全计算的数据流通产品技术要求与测试方法》及《基于联邦学习的数据流通产品技术要求与测试方法》。 基于 TEE 的多源金融大数据隐私计算技术验证 另一个非常青睐 TEE 解决方案的是金融行业。与其他技术方案相比,以硬件为载体来为数据和代码提供安全可信环境的 TEE,在金融行业最关注的数据安全、性能以及可用性三个维度上,能取得接近「帕累托最优」的效果,因此受到较多企业的青睐。
联邦学习中不同安全隐私技术综合评估 在这个行业,企业通常需要将已有的大量 AI 应用以联邦学习模式高效、便捷地扩展到现有的分布式大数据平台上(如 Spark、Flink、Hadoop 集群)。在此过程中,他们可能会遇到一些挑战,比如如何在开展联邦学习时依然保持 AI 训练与推理的高效能?如何在应用 TEE 技术特性时做到数据的全栈可信?如何将二进制应用程序不做改动地运行在 TEE 环境中? 英特尔与中国银联电子商务与电子支付国家工程实验室组成的联合研究团队通过开源的统一大数据分析与 AI 平台——BigDL,验证了基于 TEE 的联邦学习与实时预测方案,有助于解决上述问题。 如图所示,基于英特尔® SGX 技术的 BigDL 提供了自下而上可信的安全技术、不同层面的软件框架以及用于连接大数据平台和联邦学习方法的端到端平台。
Gartner技术成熟度曲线 在应用方面,除了我们前面提到的医疗和金融场景,王健宗还系统地总结了联邦学习在物联网、政务等领域的应用。从这里也可以看出,联邦学习技术的应用范围正在不断扩大,越来越多企业正放下顾虑,更放心地参与到共同的 AI 应用开发中来。这背后,以 TEE 为代表的安全计算实现方案功不可没。