开源全球首个工业级联邦学习框架FATE,微众银行如何解决AI痛点?

2019 年 7 月 26 日 AI前线

作者 & 编辑 | 陈思
AI 前线导读:北京时间 7 月 26 日,微众银行在深圳举办以“源·生”为主题的 FinTech Day 技术大会。InfoQ 作为受邀媒体参与了本次大会。

由于大数据领域的一些挑战,人工智能目前并没有发挥出它的最大价值。然而随着联邦学习的提出与应用,数据孤岛等问题正在逐渐被攻克。微众银行作为联邦学习的推动者之一,不仅开源了全球首个工业级联邦学习框架 FATE,还推动相关标准的制定。作为金融机构,微众银行为何会这样重视核心技术的发展?一家银行为何要强调开源的重要性?本文或许能给你答案。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)
推动联邦学习发展的必要性

人工智能面临着很大挑战,尤其是数据挑战。

以法律、医疗、金融三个行业为例,法律、金融行业积累下来的数据量都比较少,医院则更是将数据存储在内部,出于保障隐私的原因,无法对外开放。数据孤岛、小数据、数据安全等问题阻碍着这些行业进行数字化转型的步伐。

此外,世界上 IT 巨头频频遭到民间和监管的指责,比如 Facebook 近期遭到美国政府巨额罚款,主要原因是用户隐私泄露。隐私、安全及合规,已经变得越来越重要,人工智能技术虽然正在蓬勃发展,但是却很少有人有把合规当做首要任务。世界各地监管日趋严格,欧洲提出 GDPR、美国提出 CCPA,中国的立法也逐渐走向正规化。

面对数据孤岛、小数据、用户隐私的保护等导致数据割裂的问题,人工智能如何才能发挥其价值?微众银行首席人工智能官杨强教授认为,联邦学习或许是比较合适的解决方案。

2019 年 7 月 26 日,微众银行“FinTech Day”技术开放日活动上,杨强教授重点对联邦学习进行了介绍与讲解。

联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。

简单来说,联邦学习能够将多个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共享模型达到更优的效果。

从安全性上来说,联邦学习是分布式加密机器学习,在参与方数据不出本地,甚至可保证任何底层数据不向对方泄露,能够保护数据安全和隐私的前提下进行联合建模,共同提升建模效果。 

杨强教授介绍称,在金融领域,联邦学习可以应用在监管、保险、零售、信贷等场景,并产生很好的效果。微众银行内部已经实现了一些应用案例,比如通过发票数据、央行征信分等标签属性进行联合建模,预测小微企业信贷逾期概率等等。

此外,包括杨强教授在内的一些中国的联邦学习先行者,都在积极推进联邦学习行业标准的制定,对于行业来说,推动 AI 时代下的隐私保护、数据安全、应用安全等领域的体系规范化和技术标准化,意义深远。

2019 年 2 月,微众银行 AI 团队自主研发的全球首个工业级联邦学习框架 FATE(Federated AI Technology Enabler)正式发布,提供基于数据隐私保护的分布式安全计算框架,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,此外,FATE 还提供友好的跨域交互信息管理方案,能够解决联邦学习信息安全审计难问题。

FATE 开源地址:https://github.com/webankfintech/fate

在“FinTech Day”活动上,微众银行人工智能资深专家范涛对联邦学习的原理与 FATE 的应用进行了更为深度的讲解。

联邦学习机制详解

首先,范涛介绍联邦学习有这样几个特点: 

  • 数据不会传递到外部;

  • 通过联邦学习的机制,数据分散的建模和数据合在一起的效果是差不多的,损失都在可控的范围内;

  • 数据合作双方是对等的,不担心谁主导另外一方;

  • 共同获利,双方都可以获得相应的价值。

他进一步介绍道:联邦学习可分为横向联邦,纵向联邦和联邦迁移。

纵向联邦

纵向联邦学习可以这样理解,比如说微众银行和一些合作伙伴联合建模,微众有一些用户的信用数据,包括标签数据、逾期记录等等,利用这些数据虽然可以建立很好的模型,但是如果能够利用更多的数据,则能够更大的提升风控模型的质量和稳定性。

此时就需要找伙伴进行合作,此处范涛以腾讯为例进行进一步讲解:传统模式是微众拿自己的数据带到腾讯的生态环境中去建模,但是建好的模型没法返回到微众,并且需要由腾讯反馈数据给微众。现在这种机制就变得不再可行,因为国家出来了很多相关数据保护条款,包括各公司内部的自己的很多规定。针对这个问题,纵向联邦就可以解决。

首先,合作需要双方用户的匹配,匹配的过程涉及到很明显的隐私保护需求,比如合作双方有共同用户,但是有些数据涉及到用户的核心资产,此时,双方匹配的过程中只知道交集,但是差集部分都不知道;其次要解决的是双方用户已经匹配了,怎么建模并且保证建模的过程中数据不会泄露。

针对这两点,微众银行提出了两个解决方案:

通过 RSA,能够保证双方最终只知道交集,而不知道差集。建模的过程中,通过同态加密的技术可以保证用户隐私。之后会得到两个半模型,参与双方的模型会部署在各自一方,任何一方拿到之后都没办法单独应用,只有共同应用的时候才能决策。

横向联邦

什么是横向联邦?范涛依然以一个现实的例子来分享。

最常见的案例是反洗钱。用一家银行的数据来建模,效果上都是满足不了现实需求的,这时就可以通过联邦学习机制,充分利用多家的反洗钱样本,同时也不泄露各家的安全样本,构建一个非常大的模型。

假设微众银行和合作行的特征完全一样,数据来源都是大额交易,此时在技术层面上采用了一些机制,整个过程中双方交互的都是模型或者是梯度,同时交互和梯度也是 100% 拦截的,最终双方都会得到一个模型。横向联邦就是通过综合多方的样本,让整个模型更加稳健,效果更加好。

横向联邦的核心技术点是:把模型发给云端,云端去综合各模型效果。但是这里也有问题,如果模型本身也有可能会泄露数据信息,那就会面临新的问题,所以每次在发送模型的时候,可以加一些噪音信息,保护整个数据以及模型。

之后,范涛又分享了一些实践案例,并表示,微众银行在联邦学习领域还在不断探索,未来会有更多优质的工具以及实践案例分享。

技术才是硬道理,开源才能建立新生态

其实除了 FATE,早在 2017 年,微众银行就开源了区块链底层平台 BCOS,进而推出金融增强版的 Fisco Bcos 底层平台。环绕人工智能、区块链、云计算和大数据,在杨强教授带领之下,微众银行搭建了联邦学习平台 FedAI,并将它贡献给了 Linux 开源社区。

为什么一家银行要强调开源、推进开源呢?微众银行副行长兼首席信息官马智涛在 FinTech Day 的演讲中,回答了这个问题。

银行在金融体系中仍然扮演着重要的角色,随着信息技术的发展,银行业需要重新思考自身在未来生态体系中要发挥什么价值。于是,微众银行结合自身发展提出了:Open Platform(开放平台)、Open Innovation(开放创新)、Open Collaboration(开放协作)结合的“3O”战略,而其中,以通过开源软件、技术等方式助力行业的“开放创新”战略尤为重要。

根据 2018 年 GitHub 报告,国外科技公司在开源领域表现较为活跃,同时,金融机构在开源榜单上的排名也比较靠后。马智涛认为,银行作为第一代科技公司,走在人类的数字化最前面的应该是银行。

过去,金融行业以同质化竞争为主,技术多依靠外包,核心技术不为银行掌握,而未来的生态圈中,讲究的是越来越多跨业界的整合,银行需要投入更多的资源做差异化的竞争。科技的技术变得非常重要。马智涛说:“只有真正把科研能力掌握在自己手上,保证创新,才能在新的时代下、新的生态环境下,银行依旧能占有比较积极的位置。”

今日荐文

点击下方图片即可阅读

二季度巨亏4亿美元,“二把手”宣布辞职,特斯拉盈利能力再遭质疑


活动推荐
「Intel 实践者之声夏令营」是一个促进国内人工智能技术实践的技术交流活动,面向全球范围内的 AI 开发者、数据科学家开放报名。8 月 2 日,第一期夏令营将在北京落地,我们将带着参会者近距离感受第四范式和 Intel 在 AI 上的具体实践,并动现场动手体验通过软硬件结合的手段解决 AI 开发中的问题。

你也「在看」吗?👇

登录查看更多
6

相关内容

联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
119+阅读 · 2020年5月22日
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
163+阅读 · 2020年4月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
194+阅读 · 2020年3月8日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
295+阅读 · 2019年12月23日
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
破解数据孤岛壁垒,三篇论文详细解读联邦学习
AI科技评论
24+阅读 · 2019年5月7日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
“联邦学习”实现“共同富裕”?来TF“共同富裕”!
中国计算机学会
5+阅读 · 2019年3月12日
杨强教授:AI算法重点转向关注数据安全隐私
极市平台
11+阅读 · 2019年2月17日
CCCF专栏 | 联邦学习
中国计算机学会
26+阅读 · 2018年11月19日
Inferred successor maps for better transfer learning
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2017年8月15日
VIP会员
相关资讯
联邦学习最新研究趋势!
AI科技评论
52+阅读 · 2020年3月12日
破解数据孤岛壁垒,三篇论文详细解读联邦学习
AI科技评论
24+阅读 · 2019年5月7日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
“联邦学习”实现“共同富裕”?来TF“共同富裕”!
中国计算机学会
5+阅读 · 2019年3月12日
杨强教授:AI算法重点转向关注数据安全隐私
极市平台
11+阅读 · 2019年2月17日
CCCF专栏 | 联邦学习
中国计算机学会
26+阅读 · 2018年11月19日
相关论文
Inferred successor maps for better transfer learning
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员