人工智能面临着很大挑战,尤其是数据挑战。
以法律、医疗、金融三个行业为例,法律、金融行业积累下来的数据量都比较少,医院则更是将数据存储在内部,出于保障隐私的原因,无法对外开放。数据孤岛、小数据、数据安全等问题阻碍着这些行业进行数字化转型的步伐。
此外,世界上 IT 巨头频频遭到民间和监管的指责,比如 Facebook 近期遭到美国政府巨额罚款,主要原因是用户隐私泄露。隐私、安全及合规,已经变得越来越重要,人工智能技术虽然正在蓬勃发展,但是却很少有人有把合规当做首要任务。世界各地监管日趋严格,欧洲提出 GDPR、美国提出 CCPA,中国的立法也逐渐走向正规化。
面对数据孤岛、小数据、用户隐私的保护等导致数据割裂的问题,人工智能如何才能发挥其价值?微众银行首席人工智能官杨强教授认为,联邦学习或许是比较合适的解决方案。
2019 年 7 月 26 日,微众银行“FinTech Day”技术开放日活动上,杨强教授重点对联邦学习进行了介绍与讲解。
联邦学习(Federated Learning)是一种新兴的人工智能基础技术,在 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
简单来说,联邦学习能够将多个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共享模型达到更优的效果。
从安全性上来说,联邦学习是分布式加密机器学习,在参与方数据不出本地,甚至可保证任何底层数据不向对方泄露,能够保护数据安全和隐私的前提下进行联合建模,共同提升建模效果。
杨强教授介绍称,在金融领域,联邦学习可以应用在监管、保险、零售、信贷等场景,并产生很好的效果。微众银行内部已经实现了一些应用案例,比如通过发票数据、央行征信分等标签属性进行联合建模,预测小微企业信贷逾期概率等等。
此外,包括杨强教授在内的一些中国的联邦学习先行者,都在积极推进联邦学习行业标准的制定,对于行业来说,推动 AI 时代下的隐私保护、数据安全、应用安全等领域的体系规范化和技术标准化,意义深远。
2019 年 2 月,微众银行 AI 团队自主研发的全球首个工业级联邦学习框架 FATE(Federated AI Technology Enabler)正式发布,提供基于数据隐私保护的分布式安全计算框架,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,此外,FATE 还提供友好的跨域交互信息管理方案,能够解决联邦学习信息安全审计难问题。
FATE 开源地址:https://github.com/webankfintech/fate
在“FinTech Day”活动上,微众银行人工智能资深专家范涛对联邦学习的原理与 FATE 的应用进行了更为深度的讲解。
首先,范涛介绍联邦学习有这样几个特点:
数据不会传递到外部;
通过联邦学习的机制,数据分散的建模和数据合在一起的效果是差不多的,损失都在可控的范围内;
数据合作双方是对等的,不担心谁主导另外一方;
共同获利,双方都可以获得相应的价值。
他进一步介绍道:联邦学习可分为横向联邦,纵向联邦和联邦迁移。
纵向联邦学习可以这样理解,比如说微众银行和一些合作伙伴联合建模,微众有一些用户的信用数据,包括标签数据、逾期记录等等,利用这些数据虽然可以建立很好的模型,但是如果能够利用更多的数据,则能够更大的提升风控模型的质量和稳定性。
此时就需要找伙伴进行合作,此处范涛以腾讯为例进行进一步讲解:传统模式是微众拿自己的数据带到腾讯的生态环境中去建模,但是建好的模型没法返回到微众,并且需要由腾讯反馈数据给微众。现在这种机制就变得不再可行,因为国家出来了很多相关数据保护条款,包括各公司内部的自己的很多规定。针对这个问题,纵向联邦就可以解决。
首先,合作需要双方用户的匹配,匹配的过程涉及到很明显的隐私保护需求,比如合作双方有共同用户,但是有些数据涉及到用户的核心资产,此时,双方匹配的过程中只知道交集,但是差集部分都不知道;其次要解决的是双方用户已经匹配了,怎么建模并且保证建模的过程中数据不会泄露。
针对这两点,微众银行提出了两个解决方案:
通过 RSA,能够保证双方最终只知道交集,而不知道差集。建模的过程中,通过同态加密的技术可以保证用户隐私。之后会得到两个半模型,参与双方的模型会部署在各自一方,任何一方拿到之后都没办法单独应用,只有共同应用的时候才能决策。
什么是横向联邦?范涛依然以一个现实的例子来分享。
最常见的案例是反洗钱。用一家银行的数据来建模,效果上都是满足不了现实需求的,这时就可以通过联邦学习机制,充分利用多家的反洗钱样本,同时也不泄露各家的安全样本,构建一个非常大的模型。
假设微众银行和合作行的特征完全一样,数据来源都是大额交易,此时在技术层面上采用了一些机制,整个过程中双方交互的都是模型或者是梯度,同时交互和梯度也是 100% 拦截的,最终双方都会得到一个模型。横向联邦就是通过综合多方的样本,让整个模型更加稳健,效果更加好。
横向联邦的核心技术点是:把模型发给云端,云端去综合各模型效果。但是这里也有问题,如果模型本身也有可能会泄露数据信息,那就会面临新的问题,所以每次在发送模型的时候,可以加一些噪音信息,保护整个数据以及模型。
之后,范涛又分享了一些实践案例,并表示,微众银行在联邦学习领域还在不断探索,未来会有更多优质的工具以及实践案例分享。
其实除了 FATE,早在 2017 年,微众银行就开源了区块链底层平台 BCOS,进而推出金融增强版的 Fisco Bcos 底层平台。环绕人工智能、区块链、云计算和大数据,在杨强教授带领之下,微众银行搭建了联邦学习平台 FedAI,并将它贡献给了 Linux 开源社区。
为什么一家银行要强调开源、推进开源呢?微众银行副行长兼首席信息官马智涛在 FinTech Day 的演讲中,回答了这个问题。
银行在金融体系中仍然扮演着重要的角色,随着信息技术的发展,银行业需要重新思考自身在未来生态体系中要发挥什么价值。于是,微众银行结合自身发展提出了:Open Platform(开放平台)、Open Innovation(开放创新)、Open Collaboration(开放协作)结合的“3O”战略,而其中,以通过开源软件、技术等方式助力行业的“开放创新”战略尤为重要。
根据 2018 年 GitHub 报告,国外科技公司在开源领域表现较为活跃,同时,金融机构在开源榜单上的排名也比较靠后。马智涛认为,银行作为第一代科技公司,走在人类的数字化最前面的应该是银行。
过去,金融行业以同质化竞争为主,技术多依靠外包,核心技术不为银行掌握,而未来的生态圈中,讲究的是越来越多跨业界的整合,银行需要投入更多的资源做差异化的竞争。科技的技术变得非常重要。马智涛说:“只有真正把科研能力掌握在自己手上,保证创新,才能在新的时代下、新的生态环境下,银行依旧能占有比较积极的位置。”
点击下方图片即可阅读
二季度巨亏4亿美元,“二把手”宣布辞职,特斯拉盈利能力再遭质疑
你也「在看」吗?👇