来源:学术头条 本文为约5857字,建议阅读12分钟
本文介绍了由清华大学深圳国际研究生院知识工程研究中心、北京智谱华章科技有限公司、开放群岛开源社区联合编写的《2022 联邦学习全球研究与应用趋势报告》。
9 月 1 日至 3 日,2022 世界人工智能大会在上海世博中心举办。在 3 日下午举办的“数据要素流通技术前沿探索论坛”上,由清华大学深圳国际研究生院知识工程研究中心、北京智谱华章科技有限公司、开放群岛开源社区联合编写的《2022 联邦学习全球研究与应用趋势报告》重磅发布。与会专家还就领域研究与应用趋势等问题展开了圆桌讨论。
数字经济时代,人们越来越重视个人隐私权、政策法规愈发严格、数据协作和隐私保护矛盾日益凸出,隐私计算已然成为全球新兴的一大产业,越来越多的隐私计算平台加入开源的行列。随着《数据安全法》、《关键信息基础设施安全保护条例》、《个人信息保护法》等政策的陆续发布实施,安全行业界对信息安全与隐私数据的重视程度不断升级。
联邦学习(Federated Learning)作为一种隐私保护的重要解决方案之一,自 2016 年首次由 Google 提出、2018 年由微众银行引入国内并率先在 B 端进行创新应用以来,逐渐成为一种解决合作中数据隐私与数据共享矛盾的新路径,被大量应用于金融、安防、医疗、在线推荐系统等领域。近年来联邦学习技术得到了飞速的发展,其研究和应用的发展动向和趋势备受关注。
那么,当前联邦学习的技术发展现状如何?
《2022 联邦学习全球研究与应用趋势报告》主要从技术论文发表情况、专利申请、学者地图与画像、主流框架、行业应用,以及发展趋势等几大方面做了系统的阐述,较为全面深入地介绍了联邦学习自 2016 年诞生以来到 2021 年的技术研究和应用进展,并展望该技术的未来发展方向与前景。该报告重点突出了对科研实践具有较大影响力的高被引论文及其作者画像的分析,以及知名国际顶会专题研讨会的杰出论文特征,以展示联邦学习领域具有较高技术质量、创新力的科研成果、较高影响力的学者人才。
主要核心要点如下:
“中美双雄”引领全球联邦学习发展
中国和美国的联邦学习论文发布量遥遥领先于其他国家。高被引论文之中有六成以上是来自中美两国。顶会杰出论文之中有 45.5% 来自美国、31.8% 来自中国。
联邦学习全球高被引论文领先的机构是谷歌(8 篇)、卡内基·梅隆大学(5 篇)。中国的高被引论文量较多的机构是北京邮电大学(4 篇)、微众银行(3 篇)。在顶会杰出论文量领先机构方面,美国的卡内基·梅隆大学与中国的香港科技大学各以 3 篇而并列第一。
联邦学习领域的全球高被引论文作者主要聚集在中美。美国的高被引论文作者数量最多,占全球一半,也是中国的 2.6 倍。
全球专利受理数量以中国地区最多,约占全球受理总量的六成。专利申请数量前三名机构全部是中国机构。
开源框架主要来自中美,其中 OpenMined 推出的 Pysyft 、微众银行的 FATE 和谷歌的 TFF 框架的热度居于全球前三位。
未来联邦学习研究趋势
将更多与算法模型和安全隐私技术相关
目前联邦学习研究热点主要聚焦在机器学习方法、模型训练、隐私保护三方面。
未来几年研究趋势将更多涉及算法模型和安全隐私技术,如数据隐私、深度学习、差分隐私、边缘计算、物联网、云计算、移动设备、同态加密、优化问题、沟通效率等。
行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、车辆交互、5G/6G 等技术融合的态势。
基于 AMiner 系统,通过关键词组在标题和摘要中检索 2016 年至 2021 年论文数据。结果显示,研究时段内联邦学习相关论文共计 4576 篇,自 2016 年被提出以来,研究论文数量逐年增多,到 2021 年的复合年增长率为 40.78%。
中美两国的联邦学习高被引论文
发布量全球领跑
联邦学习的近年来高被引论文发表主要是来自于美国和中国。其中,美国的高被引论文占 39.2%,全球最多;中国的高被引论文占 26.4%,虽仍居于全球第二位,但数量比上期增加了近 10 个百分点。德国、英国、澳大利亚与新加坡等国家也拥有一定数量的高被引论文。
美国的论文被引用量全球显著领先
联邦学习高被引论文之中,论文总被引用量 TOP 10 国家是美国、中国、澳大利亚、德国、新加坡、英国、印度、日本、以色列和波兰。其中,美国的论文总被引用量明显高于其他国家,占据榜首。报告期内,中国被引用最高的论文是香港科技大学计算机科学与工程学系教授杨强为第一作者、与微众银行 AI 部门、北京航空航天大学计算机学院的研究人员联合发表的 Federated Machine Learning: Concept and Applications.
同时,报告还给出了联邦学习的十大算法,分别是:Federated Averaging (FedAvg)、Secure Aggregation、Federated Stochastic Variance Reduced Gradient (FedSVRG)、MOCHA、FedProx、Federated Learning with Client Selection (FedCS)、SCAFFOLD、Agnostic Federated Learning (AFL)、Secure Logistic Regression、Lossless Privacypreserving Treeboosting Algorithm (SecureBoost),并对联邦学习领域高被引论文 TOP 10 进行了解读。
联邦学习这一新兴技术成为当前国内外学者的研究重点,跨国合作的情况如何?
报告指出,四成以上的高被引论文研究都发生过国际之间科研合作,而中美两国论文合作数量全球最多,高达 16 篇。在各个国家之间合作发表的高被引论文之中,美国与中国、美国与英国,以及新加坡与中国的合作论文引用量居于前三。在中国的高被引论文之中,有 60.6% 存在国际之间科研合作。
七成以上杰出论文来自中美两国
一些人工智能国际学术顶会在年度会议举办期间,专门设立了联邦学习主题研讨会并且评选出联邦学习领域杰出论文,比如 FL -NeurIPS、FL-IJCAI、 FL-ICML 三个顶会系列。基于论文一作的所属国家,发现联邦学习杰出论文来自于美国、中国、瑞士、沙特阿拉伯、新加坡和韩国六个国家,其中,美国的杰出论文占 45.5%;中国的杰出论文占 31.8%。从一作所在机构来看,美国的 卡内基·梅隆大学与中国的香港 科技大学各分别获得 3 篇杰出论文,并列第一。
联邦学习的学者人才地图与画像
报告对联邦学习的高被引论文学者人才地图与画像进行了分析,指出全球联邦学习学者主要聚集在美国和中国,明显多于其他国家的学者数量。值得注意,美国的高被引论文作者数量全球最多,占全球一半,也是中国高被引论文作者数量的2.6倍.
从机构上看,联邦学习领域高被引学者总量 TOP 10 机构之中,半数席位被美国机构占据,其余几家机构则来自中国、新加坡,其中,中国电子科技大学与英特尔公司并列第十。
从高被引论文作者的机构属性来看,有 26.1% 供职于企业;高被引论文作者数量全球前十机构有约一半是企业,而且,谷歌的高被引论文作者数量最多。可见,在联邦学习领域,企业人才是一个不可忽视的研究群体。
对于联邦学习,学者最关注的技术又有哪些?报告团队通过对 AMiner 系统论文的热词分析发现,近年联邦学习领域的研究热点 TOP 10 热度榜前三位的分别为物联网、区块链和边缘计算。
在对联邦学习的应用、系统和模型设计和安全隐私三个主题领域的研究趋势进行分析发现,近年联邦学习在物联网、边缘计算、医疗保健、数据库以及推荐方面的应用研究热度逐渐上升。
在系统和模型设计方面,从热度持续性看,聚合、优化、鲁棒性、激励机制和公平性的相关研究在研究时段内一直保持着不同程度的热度上扬。
在安全隐私方面,区块链、差分隐私、多方计算、恶意攻击、隐私泄露和同态加密的研究热度总体持续逐年上涨。
专利在一定程度上能够反映出某项技术的发展方向和潜在前景。报告对全球联邦学习专利申请现状进行了分析,指出全球专利申请呈现出逐年攀升的趋势,目前的专利布局主要聚焦安全与隐私保护方向,以及机器学习方法、模型训练等方面。
近年来受理联邦学习专利申请数最多的地区是中国,有 1637 件,约占全球受理总量的六成,数量优势非常突出。
从专利申请人来看,联邦学习专利申请量 TOP 10 的机构主要分布在中国和美国两个地区,依次分别占据八席和两席,同时,排名前 3 名机构都位于中国,依次为支付宝、微众银行和平安科技。
从专利申请地来看,国内近年来联邦学习专利申请量 TOP 10 省市分别是广东、北京、浙江、上海、江苏、陕西、四川、山东、湖北和安徽,其中包括了较多的沿海地区省市。
通过新闻事件分析挖掘和搜索系统 NewsMiner 数据库,从已公开的新闻数据发现,联邦学习技术的行业应用最早出现在 2018 年,当时被应用在金融、IT 和通信领域,后来几年其应用探索逐渐扩展到智慧城市、教育、汽车等其他多个行业领域。
在金融业的应用
联邦学习在金融业应用目前处于框架设计、合作探索、在几个业务场景中初步试点的阶段。推进联邦学习在金融业应用落地的参与主体主要是科技公司(百度、腾讯、京东等)、互联网金融机构(微众银行、蚂蚁金服等)、少数传统商业银行(江苏银行、浦发银行、建设银行等)等。
在医疗业应用
联邦学习在医疗业应用目前处于研究探索、项目试点的阶段,参与主体不仅有科技公司,而且有较多的国内外权威科研机构、大学院所、医疗机构。国际性科技期刊 Nature《自然》曾发表关于联邦学习在医疗领域应用的文章,展示出联邦学习技术医疗应用的强大潜力。新冠疫情以来,通过使用联邦学习和来自各地区各医疗机构的数据来开发模型的研究意愿和实践更加强烈。
在电信业应用
联邦学习的最初提出就是为了解决移动设备数据训练问题,可以看作是其在电信业的最早应用。从公开的新闻数据看,联邦学习在电信业应用探索从 2018 年开始至今,应用场景从早期的通信资源分配已扩展到近期的客户体验和精准营销、6G 和卫星网络等。其中的参与主体主要是大型通信运营商、软硬件制造商等。
同时,报告还对联邦学习框架与系统进行了详细分析。
目前,市面上有许多来自于科研机构或企业的关于联邦学习的开源工程。报告通过 AMiner 数据库中的新闻数据,按照开源与非开源两类,分析梳理了国内外主要的联邦学习相关系统框架,并列出了 10 个国内外开源联邦学习框架。
按照 Github上的热度排序,开源联邦学习框架排在前三位的分别是 OpenMined 推出的 Pysyft 、微众银行的 FATE 和谷歌的 TFF 框架。
图|开源的联邦学习框架(来源:《2022 联邦学全球研究与应用趋势解读》)
非开源的联邦学习框架基本上都是由企业推出的。根据其正式发布时间进行排序,发现这些联邦学习框架最多集中发布于 2020 年。其中,发布时间较早的是翼方健数的联邦学习框架,以及星云 Clustar 的 AIOS,两者均于 2019 年发布;最新发布的是 2022 年 2 月中国银联发布的联邦学习平台。
竞争激烈,机遇空前
联邦学习的发展恰好契合了新数字时代规避隐私风险的需求,联邦学习技术的发展趋势如何?又将怎么改变我们的生活?
报告对联邦学习发展趋势进行了分析。在研究趋势方面,通过对 AMiner 数据库中联邦学习相关论文的分析,生成大数据智能的发展趋势河流图。对比上期热点结果,本期的联邦学习技术研究热度前十主题尽管仍然聚焦于安全与隐私技术方面,但在应用方面发生了一些变化,更加突出了物联网与移动设备方面的研究。
2021 年研究热度前十的的研究主题依次分别是:
Data Privacy(数据隐私)
Deep learning(深度学习)
Differential Privacy(差分隐私)
Edge Computing(边缘计算)
Internet of Things(物联网)
Cloud Computing(云计算)
Mobile Device(移动设备)
Homomorphic Encryption(同态加密)
Optimization Problem(优化问题)
Communication Effiency(沟通效率)
从技术成熟度方面来看,联邦学习正处于“创新触发期”(Innovation Trigger),效益评级均为“高”,属于“新兴”技术,到达生产高峰期(the Plateau of Productivity)的时间预计为 5-10 年,且市场渗透率(Market Penetration)目前依然低于 1%。
报告还指出,技术标准化建立与实施是联邦学习技术落地应用的重要依据。如今,联邦学习从技术维度上解决了人工智能发展过程中的安全问题。中国已经成为联邦学习技术的深度参与方,国内企业和科研机构积极参与联邦学习的技术研发和应用,以及标准制定。国际与国内联邦学习标准的相继出台有力促进了联邦学习生态的建立与发展。截至目前,联邦学习生态建设较成规模的有 FATE 开源社区与开放群岛开源社区。
未来,随着人工智能技术和应用的不断升级,联邦学习的技术研发和落地应用还将进一步扩大和深入。联邦学习未来市场与商业化的实际落地将出现更多的异构场景下的应用。
获取更多报告可访问:
www.reports.aminer.cn