本文约2798字,建议阅读6分钟
本文介绍了清华大学人工智能研究院知识智能中心和清华—中国工程院知识智能联合研究中心和智谱 AI 联合发布了《2021 联邦学习全球研究与应用趋势报告》。
7月 31 日,美国亚马逊公司(Amazon)被卢森堡数据保护委员会处以 7.46 亿欧元(约合 57.2 亿元人民币)的罚款,原因是 Amazon 违反了欧盟的《通用数据保护条例》。
事实上,Amazon 并非是首次遭遇数据隐私巨额罚款的公司,此前 Facebook 和 Google 也因违反相关数据隐私保护规定而被处以巨额罚款。
如今,随着人们越来越重视个人隐私权、政策法规愈发严格、数据协作和隐私保护矛盾日益凸出,
隐私计算
已然成为全球新兴的一大产业。
而联邦学习(Federated Learning)作为一种隐私保护的重要解决方案之一,近年来也得到了飞速的发展和足够多的关注。
在今年 7 月发布的 2021 年度Gartner 技术成熟度曲线中,
联邦学习被首次纳入“隐私计算的技术成熟度曲线 — 2021”
,根据此次 Gartner 预测内容,在 2021-2025 年这一周期中,联邦学习将发挥主流作用,引导该领域的商业化大潮。
近日,清华大学人工智能研究院知识智能中心和清华—中国工程院知识智能联合研究中心和智谱 AI 联合发布了《2021 联邦学习全球研究与应用趋势报告》(以下简称“报告”),报告从科研论文、专利、书籍、行业应用、学者地图与画像、技术发展趋势等多个角度,全景展示和分析了联邦学习技术自从 2016 年被提出以来至 2020 年的重要进展,并展望了该技术的未来发展方向与前景。
-
联邦学习科研发展呈现出整体热度逐年上升态势。研究论文产出量以及专利申请受理量均以中美两国为领先主导;全球该领域学者也主要聚集在这两个国家;
-
联邦学习高被引论文半数以上来自中美两国,两国间的合作论文数量也是全球最多;
-
联邦学习论文研究和专利申请的热点主要聚焦在机器学习方法、模型训练、隐私保护三方面;
-
企业比学术机构更积极地开展联邦学习相关研究,不仅在专利申请量前十机构之中占八席,而且引领论文量前十机构,也是联邦学习系统框架的主要推出者;
-
行业应用研究方向呈现出不断与区块链、物联网、车辆交互、5G等技术融合的态势。
联邦学习是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型。
2016 年,
“联邦学习”的概念首次由 Google 提出
,当时 Google 为了解决 Android 系统的更新问题,提出让用户在自己的系统中训练模型,以上传模型参数取代直接上传数据,一定程度上保护了个人数据的私密性。2018 年,“联邦学习”概念
由微众银行引入国内
,并率先在 B 端进行创新应用。
如今,“联邦学习”逐渐成为一种解决合作中数据隐私与数据共享矛盾的新路径,被大量应用于金融、安防、医疗、在线推荐系统等领域。
那么,当前联邦学习的技术发展现状如何?报告从全球论文发表情况、学者人才地图与画像、专利申请等方面做了全面、系统的阐述。
基于 AMiner 系统,通过在论文标题和摘要中检索关键词组,报告团队对 2016 年至 2020 年发表的“联邦学习”相关论文进行分析发现,联邦学习领域论文年度发表量呈现出不断增长的趋势,在 2020 年进入迅速增长阶段。就论文作者所在机构所属国家进行排序分析发现,论文量较为突出的国家为中国(666 篇)和美国(659 篇)。
(来源:《2021 联邦学全球研究与应用趋势报告》)
但在高被引论文方面,美国占比高达 40.2%,中国占比为 16.6%,两者间还存在一定差距。论文的被引用次数是文献计量学中测量论文的影响力或者质量的基本指标,高被引论文可以被视为具有重大学术影响的成果。
在国内,香港科技大学计算机科学与工程学系教授杨强为第一作者、与微众银行 AI 部门、北京航空航天大学计算机学院的研究人员联合发表的论文“FederatedMachine Learning: Concept and Applications”
引用量最高
。
(来源:《2021 联邦学全球研究与应用趋势报告》)
从全球范围来看,联邦学习领域近 5 年(2016-2020 年)论文发布量 TOP 10 机构来自美、中、韩、澳、新五国,其中美国的谷歌公司位居首位。
同时,报告还给出了联邦学习的十大算法,并对联邦学习领域高被引论文 TOP 10 进行了解读。
联邦学习这一新兴技术成为当前国内外学者的研究重点,跨国合作的情况如何?报告指出,约四成的高被引论文研究都发生过国际之间科研合作,而中美两国论文合作数量全球最多,高达 10 篇。在中国的高被引论文之中,有 67.9% 存在国际之间科研合作。
联邦学习高被论文中外合作情况(2016-2020 年)
在各个国家之间合作发表的高被引论文之中,美国与英国、美国与中国,以及新加坡与中国的合作论文引用量居于前三。国内高被引论文中
七成论文存在跨机构合作现象
。从发布渠道看,2016-2020 年期间联邦学习的高被引论文发表在共计 41 个期刊会议等渠道上,而预印本平台 ArXiv 是高被引论文的最多发布渠道。
热衷于联邦学习的学者们一定很关注联邦学习的特刊、书籍和综述,报告指出
目前关于联邦学习主题的特刊只有一份
,即美国出版的双月刊 IEEE INTELLIGENT SYSTEMS,主要书籍有包括杨强,刘洋等撰写的《联邦学习=Federated Learning》在内的 4 本书。
报告对联邦学习的学者人才地图与画像进行了分析,并指出
全球联邦学习学者主要聚集在美国(29.56%)和中国(29.52%)
,明显多于其他国家的学者数量。
从机构上看,联邦学习领域学者总量 TOP 10 机构之中,八成席位被中国机构占据。
从学术水平上看,学者数量 TOP 10 国家之间的学者在
学术水平H指数上并没有显著差别
。尽管联邦学习领域的全球学者有 2764 名,但目前高端研究人才比较稀缺,高学术水平(H 指数大于 30)学者占比不足 5%。
对于联邦学习,学者最关注的技术又有哪些?报告团队通过对 AMiner 系统论文的热词分析发现,近 5 年联邦学习领域的研究热点 TOP 10 热度榜前三位的分别为边缘计算、区块链和物联网。
在对联邦学习的应用、系统和模型设计和安全隐私三个主题领域的研究趋势进行分析发现,
近 5 年联邦学习在边缘计算、无线通信、医疗保健、数据库以及推荐方面的应用研究热度也呈现出逐年上升的趋势。
在系统和模型设计方面,异构、通信效率、聚合、优化、资源效率、鲁棒性、激励机制和公平性成为近 5 年联邦学习在系统和模型设计方面研究热度领先的热点词。从热度持续性看,通信效率、聚合、优化、鲁棒性的相关研究在研究时段内一直保持着不同程度的热度上扬。
在安全隐私方面,差分隐私、多方计算、恶意攻击、同态加密和容错一直是研究热点并且其热度总体逐年上涨。
专利在一定程度上能够反映出某项技术的发展方向和潜在前景。报告对全球联邦学习专利申请现状进行了分析,指出全球专利申请呈现出逐年攀升的趋势,中国在近 5 年的相关专利申请受理量上处于全球领先地位。
一个值得注意的现象是,从专利第一申请人的所属机构类型来看,联邦学习专利第一申请人涵盖了企业、高校、研究所等不同类型,但
专利申请量前十机构全部为企业
。
获得联邦学习相关专利申请关键词最多聚焦于机器学习,目前的
专利布局主要聚焦机器学习方法、模型训练、隐私保护三大方面。
当前,联邦学习在各行业各领域都开始了广泛的落地探索,获得了较广泛关注。报告列举了在 IT 科技、安全防护、金融、智慧城市、医疗健康、智慧零售、电信、教育等领域,2016-2020 年度已经开始应用联邦学习技术的主要行业和公司。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
富数科技结合联邦学习和安全多方计算技术推出了富数安全计算平台
|
|
|
|
|
百度发布3项深度学习前沿技术工具组件:联邦学习PaddleFL、图神经网络PGL和多任务学习PALM 等
|
|
|
|
|
同盾科技人工智能研究院深度学习实验室发布成果:“面向联邦学习的加密神经网路”
|
|
|
|
|
光大科技加入FATE联邦学习社区技术指导委员会(TSC)并贡献关键算法源码
|
|
|
|
|
|
|
|
|
|
|
|
|
2016-2020 年度联邦学习技术在 IT 行业应用动态
目前,市面上有许多来自于科研机构或企业的关于联邦学习的开源工程。报告通过 AMiner 数据库中的新闻数据,按照开源与非开源两类,分析梳理了国内外主要的联邦学习相关系统框架,并列出了 10 个国内外开源联邦学习框架。
按照 Github 上的热度排序,
开源联邦学习框架排在前三位的分别是 OpenMined 推出的 Pysyft 、微众银行的 FATE 和谷歌的 TFF 框架
。
微众银行 AI 部门研发的 FATE(FederatedAI Technology Enabler)联邦学习开源项目,是
首个开源的联邦学习工业级框架
。FATE 目前支持
三种
类型联邦学习算法:横向联邦学习、纵向联邦学习以及联邦迁移学习。
非开源的联邦学习框架基本上都是由企业推出的,主要集中发布于 2019 至 2020 年期间,目前主要有腾讯的 AngelFL 联邦学习平台、京东数科 Fedlearn 平台、平安科技研发的蜂巢联邦智能平台等。
联邦学习的发展恰好契合了新数字时代规避隐私风险的需求,联邦学习技术的发展趋势如何?又将怎么改变我们的生活?
报告对联邦学习发展趋势进行了分析。在研究趋势方面,通过对 AMiner 数据库中联邦学习相关论文的分析,生成技术发展趋势河流图。基于边缘计算、数据异质性的联邦学习研究以及在物联网应用方面的研究热度在 2019 年左右上升明显,并且之后一直居于领先位置。
2020 年研究热度前十的主题大多与算法模型或安全隐私技术相关,依次分别是:
Edge Computing(边缘计算)
Data Heterogeneity(数据异质性)
Internet Of Things(物联网)
Blockchain(区块链)
Wireless Communication(无线通信)
Communication Efficiency(沟通效率)
Aggregation(聚合)
Optimization(优化)
Healthcare(医疗保健)
Malicious Attack(恶意攻击)
从技术成熟度方面来看,
联邦学习正处于“创新触发期”(Innovation Trigger),效益评级均为“高”,属于“新兴”技术,到达生产高峰期(the Plateau of Productivity)的时间预计为 5-10 年,且市场渗透率(Market Penetration)依然低于 1%。
而且,随着隐私法规的激增、对数据隐私保护的需求增加,以及集中收集和存储大数据难度的增加等多个驱动因素影响,联邦学习被采用的范围和程度逐年增加。在 2020 年之后的技术成熟度曲线之中,虽然联邦学习技术仍然都处于“创新触发期”,但相比 2019 年,联邦学习在 2020 年距离“期望膨胀期”(Peak of Inflated Expectations)又更近一步,已经度过了公司初创和第一轮风投的发展阶段,正处于“第一代产品期、价格高、大量客户化定制”(First-generation products,high price, lots of customization needed)的阶段。
在未来发展中,相关标准的实施与执行将是联邦学习领域的发展重点,影响着该技术作为下一代人工智能协作网络基础的能力。
报告还指出,未来将有更多行业的更多企业机构加入和布局该技术的应用,亟需建立一个联邦学习生态联盟。在良好的联邦学习生态联盟中,联邦学习参与方,不仅可以获得相关的技术支持等服务与产品,快速便捷地完成相关应用的开发部署工作,而且可以在良好的开源环境下,更加高效、准确地自建模型、联合建模、共享模型、共建联邦学习生态。
如今,联邦学习从技术维度上解决了人工智能发展过程中的安全问题,被学术界和产业界寄予厚望。中国已经成为联邦学习技术的深度参与方,国内企业和科研机构积极参与联邦学习的技术研发和应用,以及标准制定。
未来,随着人工智能技术和应用的不断升级,联邦学习的技术研发和落地应用还将进一步扩大和深入。