开源全球首个工业级联邦学习框架FATE，微众银行如何解决AI痛点？

2019 年 7 月 26 日 AI前线

作者 & 编辑 | 陈思

AI 前线导读：北京时间 7 月 26 日，微众银行在深圳举办以“源·生”为主题的 FinTech Day 技术大会。InfoQ 作为受邀媒体参与了本次大会。

由于大数据领域的一些挑战，人工智能目前并没有发挥出它的最大价值。然而随着联邦学习的提出与应用，数据孤岛等问题正在逐渐被攻克。微众银行作为联邦学习的推动者之一，不仅开源了全球首个工业级联邦学习框架 FATE，还推动相关标准的制定。作为金融机构，微众银行为何会这样重视核心技术的发展？一家银行为何要强调开源的重要性？本文或许能给你答案。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

推动联邦学习发展的必要性

人工智能面临着很大挑战，尤其是数据挑战。

以法律、医疗、金融三个行业为例，法律、金融行业积累下来的数据量都比较少，医院则更是将数据存储在内部，出于保障隐私的原因，无法对外开放。数据孤岛、小数据、数据安全等问题阻碍着这些行业进行数字化转型的步伐。

此外，世界上 IT 巨头频频遭到民间和监管的指责，比如 Facebook 近期遭到美国政府巨额罚款，主要原因是用户隐私泄露。隐私、安全及合规，已经变得越来越重要，人工智能技术虽然正在蓬勃发展，但是却很少有人有把合规当做首要任务。世界各地监管日趋严格，欧洲提出 GDPR、美国提出 CCPA，中国的立法也逐渐走向正规化。

面对数据孤岛、小数据、用户隐私的保护等导致数据割裂的问题，人工智能如何才能发挥其价值？微众银行首席人工智能官杨强教授认为，联邦学习或许是比较合适的解决方案。

2019 年 7 月 26 日，微众银行“FinTech Day”技术开放日活动上，杨强教授重点对联邦学习进行了介绍与讲解。

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。

简单来说，联邦学习能够将多个数据方之间组成一个联盟，共同参与到全局建模的建设中，各方之间在保护数据隐私和模型参数基础上，仅共享模型加密后的参数，让共享模型达到更优的效果。

从安全性上来说，联邦学习是分布式加密机器学习，在参与方数据不出本地，甚至可保证任何底层数据不向对方泄露，能够保护数据安全和隐私的前提下进行联合建模，共同提升建模效果。

杨强教授介绍称，在金融领域，联邦学习可以应用在监管、保险、零售、信贷等场景，并产生很好的效果。微众银行内部已经实现了一些应用案例，比如通过发票数据、央行征信分等标签属性进行联合建模，预测小微企业信贷逾期概率等等。

此外，包括杨强教授在内的一些中国的联邦学习先行者，都在积极推进联邦学习行业标准的制定，对于行业来说，推动 AI 时代下的隐私保护、数据安全、应用安全等领域的体系规范化和技术标准化，意义深远。

2019 年 2 月，微众银行 AI 团队自主研发的全球首个工业级联邦学习框架 FATE（Federated AI Technology Enabler）正式发布，提供基于数据隐私保护的分布式安全计算框架，为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持，此外，FATE 还提供友好的跨域交互信息管理方案，能够解决联邦学习信息安全审计难问题。

FATE 开源地址：https://github.com/webankfintech/fate

在“FinTech Day”活动上，微众银行人工智能资深专家范涛对联邦学习的原理与 FATE 的应用进行了更为深度的讲解。

联邦学习机制详解

首先，范涛介绍联邦学习有这样几个特点：

数据不会传递到外部；
通过联邦学习的机制，数据分散的建模和数据合在一起的效果是差不多的，损失都在可控的范围内；
数据合作双方是对等的，不担心谁主导另外一方；
共同获利，双方都可以获得相应的价值。

他进一步介绍道：联邦学习可分为横向联邦，纵向联邦和联邦迁移。

纵向联邦

纵向联邦学习可以这样理解，比如说微众银行和一些合作伙伴联合建模，微众有一些用户的信用数据，包括标签数据、逾期记录等等，利用这些数据虽然可以建立很好的模型，但是如果能够利用更多的数据，则能够更大的提升风控模型的质量和稳定性。

此时就需要找伙伴进行合作，此处范涛以腾讯为例进行进一步讲解：传统模式是微众拿自己的数据带到腾讯的生态环境中去建模，但是建好的模型没法返回到微众，并且需要由腾讯反馈数据给微众。现在这种机制就变得不再可行，因为国家出来了很多相关数据保护条款，包括各公司内部的自己的很多规定。针对这个问题，纵向联邦就可以解决。

首先，合作需要双方用户的匹配，匹配的过程涉及到很明显的隐私保护需求，比如合作双方有共同用户，但是有些数据涉及到用户的核心资产，此时，双方匹配的过程中只知道交集，但是差集部分都不知道；其次要解决的是双方用户已经匹配了，怎么建模并且保证建模的过程中数据不会泄露。

针对这两点，微众银行提出了两个解决方案：

通过 RSA，能够保证双方最终只知道交集，而不知道差集。建模的过程中，通过同态加密的技术可以保证用户隐私。之后会得到两个半模型，参与双方的模型会部署在各自一方，任何一方拿到之后都没办法单独应用，只有共同应用的时候才能决策。

横向联邦

什么是横向联邦？范涛依然以一个现实的例子来分享。

最常见的案例是反洗钱。用一家银行的数据来建模，效果上都是满足不了现实需求的，这时就可以通过联邦学习机制，充分利用多家的反洗钱样本，同时也不泄露各家的安全样本，构建一个非常大的模型。

假设微众银行和合作行的特征完全一样，数据来源都是大额交易，此时在技术层面上采用了一些机制，整个过程中双方交互的都是模型或者是梯度，同时交互和梯度也是 100% 拦截的，最终双方都会得到一个模型。横向联邦就是通过综合多方的样本，让整个模型更加稳健，效果更加好。

横向联邦的核心技术点是：把模型发给云端，云端去综合各模型效果。但是这里也有问题，如果模型本身也有可能会泄露数据信息，那就会面临新的问题，所以每次在发送模型的时候，可以加一些噪音信息，保护整个数据以及模型。

之后，范涛又分享了一些实践案例，并表示，微众银行在联邦学习领域还在不断探索，未来会有更多优质的工具以及实践案例分享。

技术才是硬道理，开源才能建立新生态

其实除了 FATE，早在 2017 年，微众银行就开源了区块链底层平台 BCOS，进而推出金融增强版的 Fisco Bcos 底层平台。环绕人工智能、区块链、云计算和大数据，在杨强教授带领之下，微众银行搭建了联邦学习平台 FedAI，并将它贡献给了 Linux 开源社区。

为什么一家银行要强调开源、推进开源呢？微众银行副行长兼首席信息官马智涛在 FinTech Day 的演讲中，回答了这个问题。

银行在金融体系中仍然扮演着重要的角色，随着信息技术的发展，银行业需要重新思考自身在未来生态体系中要发挥什么价值。于是，微众银行结合自身发展提出了：Open Platform（开放平台）、Open Innovation（开放创新）、Open Collaboration（开放协作）结合的“3O”战略，而其中，以通过开源软件、技术等方式助力行业的“开放创新”战略尤为重要。

根据 2018 年 GitHub 报告，国外科技公司在开源领域表现较为活跃，同时，金融机构在开源榜单上的排名也比较靠后。马智涛认为，银行作为第一代科技公司，走在人类的数字化最前面的应该是银行。

过去，金融行业以同质化竞争为主，技术多依靠外包，核心技术不为银行掌握，而未来的生态圈中，讲究的是越来越多跨业界的整合，银行需要投入更多的资源做差异化的竞争。科技的技术变得非常重要。马智涛说：“只有真正把科研能力掌握在自己手上，保证创新，才能在新的时代下、新的生态环境下，银行依旧能占有比较积极的位置。”

活动推荐

「Intel 实践者之声夏令营」是一个促进国内人工智能技术实践的技术交流活动，面向全球范围内的 AI 开发者、数据科学家开放报名。8 月 2 日，第一期夏令营将在北京落地，我们将带着参会者近距离感受第四范式和 Intel 在 AI 上的具体实践，并动现场动手体验通过软硬件结合的手段解决 AI 开发中的问题。

你也「在看」吗？👇

登录查看更多

相关内容

联邦学习

关注 199

联邦学习（Federated Learning）是一种新兴的人工智能基础技术，在 2016 年由谷歌最先提出，原本用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于神经网络，还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【微众银行】联邦学习白皮书_v2.0，48页pdf，

专知会员服务

169+阅读 · 2020年4月26日