面向AIoT的协同智能综述

深度学习和物联网的融合发展有力地促进了AIoT生态的繁荣. 一方面AIoT设备为深度学习提供了海量数据资源，另一方面深度学习使得AIoT设备更加智能化. 为保护用户数据隐私和克服单个AIoT设备的资源瓶颈，联邦学习和协同推理成为了深度学习在AIoT应用场景中广泛应用的重要支撑. 联邦学习能在保护隐私的前提下有效利用用户的数据资源来训练深度学习模型，协同推理能借助多个设备的计算资源来提升推理的性能. 引入了面向AIoT的协同智能的基本概念，围绕实现高效、安全的知识传递与算力供给，总结了近10年来联邦学习和协同推理算法、架构和隐私安全3个方面的相关技术进展，介绍了联邦学习和协同推理在AIoT应用场景中的内在联系. 从设备共用、模型共用、隐私安全机制协同和激励机制协同等方面展望了面向AIoT的协同智能的未来发展.智能物联网（artificial intelligence of things，AIoT）来源于物联网和人工智能的技术融合[1]. 随着智慧工厂[2]、智慧家居[3]、智慧农业[4]和智慧交通[5]等物联网智慧应用的迅速发展，AIoT的设备数目和市场规模日益增长 1. 与此同时，华为、小米、微软和英伟达等头部企业相继推出其AIoT战略或产品线[6-7]加速了AIoT产业的扩张，显示出AIoT在推动社会经济发展和人类生活方式智能化方面的巨大潜力. AIoT既具有传统物联网的一般特征，也具有因融合了人工智能而带来的特殊性. 传统物联网采用感知层、传输层和应用层3层逻辑架构[8]：感知层由大量传感器设备构成，负责采集各种数据信息；传输层通过通信网络将感知层收集的数据信息传递给边缘服务器或云服务器；应用层则通过边缘服务器或云服务器分析和处理来自感知层的数据并为用户提供服务. 在AIoT中，端侧设备除了能通过传感器收集数据信息外，往往也具有本地计算能力，可以为用户提供智能计算服务[9-10]. 这些AIoT端侧设备运行的应用可以通过人工智能算法在端侧进行智能数据处理. 深度学习是目前最先进的人工智能技术之一[1, 11]，在图像识别[12]、语音识别[13]、自然语言处理[14]和自动控制[15]等领域都取得了显著的效果. 深度学习在AIoT中的部署进一步提升了AIoT的智能化水平[16]，成为未来发展的重要方向[1]. 随着AIoT设备的普及，其收集的海量多模态数据成为深度学习等数据驱动型人工智能的宝贵资源. 由于这些数据可能包含用户隐私信息，根据欧盟的《通用数据保护条例》[17](general data protection regulation，GDPR）和《中华人民共和国数据安全法》等相关法律，服务商不能像在数据中心中一样直接收集原始数据样本进行分布式训练[18]，而只能在用户的数据隐私得到充分保障的前提下训练深度学习模型. 此外，在AIoT应用场景中端侧设备在地理上的广泛分布[19]、训练样本在不同的端侧设备上存在的统计异构[20]、高延迟与不稳定的广域网传输[21]和对激励机制的需求[22]也使得传统分布式训练方法[23]并不适用，联邦学习提供了解决这些问题的一系列方法[20, 24-25]. 然而在算力层面，随着深度学习模型的复杂化，AIoT端侧设备在计算和存储方面难以满足训练和推理任务对资源的需求[26-27]，日益成为制约深度学习在AIoT中应用落地的限制性因素. 基础模型[28]的发展与ChatGPT等人工智能内容生成[29]（AI-Generated content, AIGC）现象级应用的出现一方面为AIoT开辟了更为广阔的应用前景；另一方面，基础模型也大幅提升了深度学习模型对算力的需求（例如GPT-3最多有1 750亿参数，训练需要3 640 PFLOPS-days的算力），使得其训练只能在云端数据中心中进行[29]. 为了弥补算力方面的不足，AIoT端侧设备通过通信网络将部分或全部深度学习任务卸载到计算和存储资源较为丰富的边缘服务器或云服务器上执行的方法成为近年来的研究热点[16, 30]. 智能计算系统[31]对端边云各层级的深度学习算力平台提供了统一的理论分析框架，因此本文将端侧设备、边缘服务器和云服务器视为单设备智能计算系统. 通过通信网络，分布在不同层级的单设备智能计算系统可以合作完成联邦学习和协同推理等深度学习任务. 在AIoT应用场景中的联邦学习和协同推理都涉及多个设备协同完成深度学习任务的过程，从中可以引申出面向AIoT的协同智能的概念. 面向AIoT的协同智能可以从广义和狭义2个方面来解释：从广义上来讲，面向AIoT的协同智能包含AIoT应用场景中可以使用的协同训练和协同推理2个相对独立的技术领域；从狭义上来说，面向AIoT的协同智能一方面基于协同训练使用AIoT端侧设备收集的海量多模态数据训练深度学习模型（包括基础模型等大模型），另一方面以AIoT端侧设备为媒介使用协同训练得到的深度学习模型为用户提供基于协同推理的智能服务，形成了协同训练和协同推理相结合的应用新形态. 协同训练包含联邦学习、分离式学习[32]、迁移学习[33]、元学习[34]、模型补丁[35]和双向协同[36]等方式[1, 37]. 在监督学习的情况下，协同训练所需的数据标签可以来自用户反馈[37]、众包数据标注[38]和云端大模型[39]等. 由于在训练数据中包含用户隐私的情况下联邦学习是进行协同训练的主要方式[37]，而在AIoT应用场景中保护用户数据隐私十分重要[1, 40]，本文将联邦学习作为AIoT应用场景中的主要协同训练方式 2. 为更好地利用AIoT端侧设备收集的海量多模态数据、弥补AIoT端侧设备在算力方面的不足和通过AIoT端侧设备为用户提供优质的智能服务，本文归纳了AIoT应用场景中联邦学习和协同推理这2种主要的协同智能[41-42]方法近年来的主要进展、介绍了两者之间的内在联系并基于这种联系对它们的未来进行了展望. 已有的相关综述主要涉及AIoT、联邦学习和协同推理等领域 [1, 16, 20, 22, 25, 30, 37, 43]，如表1所示. 部分已有综述[16, 20, 22, 25, 30, 43]主要单独总结联邦学习或协同推理的相关工作，没有在AIoT应用场景中将两者联系起来. 一些综述[1, 30, 37]同时涉及了联邦学习和协同推理，但没有从算法、架构和隐私安全等角度归纳出两者在AIoT应用场景中的内在联系，而本文正是基于这一联系引出了面向AIoT的协同智能的概念并组织全文内容. 在架构方面，本文从智能计算系统的角度对面向AIoT的协同智能在架构方面相关工作所在的架构层级进行了分类，据我们所知目前没有本领域相关综述使用这种分类方法. 此外，本文还总结了面向AIoT的协同智能近年来在联邦持续学习、联邦多模态学习、联邦强化学习、协同推理的隐私安全以及大模型等新兴领域的技术进展.

在协同训练和协同推理的过程中，多个设备共享的资源主要有知识和算力2种类型，因此面向AIoT的协同智能的主要设计目标是通过高效、安全的知识传递和算力供给来实现智能任务的多设备协同计算. 本文总结了可用于实现该目标的相关技术进展，主要贡献如下：