作为一项新兴交叉学科领域,边缘智能通过将人工智能推送至靠近交通数据源侧, 并利用边缘算力、存储资源及感知能力,在提供实时响应、智能化决策、网络自治的同时, 赋能更加智能、高效的资源调配与处理机制,从而实现车联网从接入“管道化”向信息“智 能化”使能平台的跨越。**然而,当前边缘智能于车联网领域的成功实施仍处于起步阶段,迫 切需要以更为广阔的视角对这一新兴领域进行全面综述。**为此,面向车联网应用场景,首先 介绍边缘智能的背景、概念及关键技术;然后,对车联网应用场景中基于边缘智能的服务类 型进行整体概述,同时详细阐述边缘智能模型的部署和实施过程;最后,分析边缘智能于车 联网中的关键开放性挑战,并探讨应对策略,以推动其潜在研究方向。
0. 引言
在面临技术发展与业务需求的双重作用下,交通系统正逐渐演变为以数据驱动为主的智 能时代。当前,汽车行业正迎来新革新与生命力,新兴的车联网技术已赋予车辆提供可靠车 载多媒体服务[1]、自适应巡航控制[2]、智能交通信息管理[3]等信息化能力,促进了智能交通的 发展道路,有效地提升了乘客的行车安全性和旅途舒适性。 随着信息化的蓬勃发展,车载应用对处理能力和服务质量(QoS, quality of service)提出 了更高的要求,不可避免地较传统移动应用占用更多资源量和能耗[4]。然而,受限于车辆自 身处理能力的瓶颈,以及云计算平台的长距离回传限制,云计算架构因传输距离所导致的高 时延和低可靠性,必然难以满足实时类车载应用的 QoS 保障。同时,相较于车联网边缘数据 的增长速度,云计算能力的线性增速也无法企及[5, 6]。 为此,云计算的相关核心功能应部署于接近数据源位置,即以网络边缘作为新兴的技术 架构角度来考虑。因而,作为车路互联应用的核心计算支撑,边缘计算技术[7]应运而生。具 体来说,边缘计算可以理解为云计算模型的补充和扩展,并不完全依赖于云端能力,而是促 进云与边缘能力的协同统一[8]。该项技术通过于道路路侧单元(RSU, roadside units)上部署 边缘服务器,从而将计算、通信、存储、控制及管理等网络功能,由集中式云端下延至网络 边缘侧[9-11],利用网络边缘侧与车辆的物理接近性,缓解传输距离所导致的时延和不可靠性。 从技术角度看,边缘计算可实现计算任务向 RSU 的迁移,为实时类车载应用提供算力资源支撑[9]。同时,于车联网中部署边缘计算功能,还可受益于其分布式结构和小规模性质[12]带来 的额外技术优势,包括敏捷联接[7]、隐私保护[13]、可拓展性和上下文感知[6]等方面。 此外,鉴于边缘服务器的处理能力相对有限,时而供需不平衡,按需服务优化通常也是 实现车辆服务增益的关键因素。优化核心将针对边缘环境中算力、存储、网络资源高效分配, 从而于用户需求侧和资源供给侧,处理有限网络资源的编排与调度问题,实现计算任务动态 部署。值得强调的是,进行服务优化时需考虑可扩展性、灵活性和高效率等方面,以适应发 展趋势和多样化应用需求。尽管传统服务优化方法的求解是 NP 难问题,但车联网的高度动 态性和需求不确定性对资源调度的自适应方法设计提出了特定的要求,使得基于模型的服务 优化方法往往不再适用[14- 15]。为此,迫切需要设计不依赖通用化模型的边缘服务优化方法。 与此同时,人工智能(AI, artificial intelligence)的发展在历经两次低谷和三次崛起后, 于过去十年中进入了飞跃。得益于硬件升级和神经网络泛化,AI 凭借其在数据分析和提取洞 察力方面的优势,支持于动态环境下扩展技术创新以增强网络的认知和智能水平。将 AI 推 送至靠近交通数据源的车联网边缘侧,催生出一类新兴的学习范式,即边缘智能[14, 16-17]。 边缘智能被广泛地认为是智能化边缘计算的落地部署,其关键在于以边缘为依托,实现 边缘计算与 AI 的优势互补。这里,边缘智能将云端处理能力下沉至接入网边缘,并在靠近车 辆的网络边缘引入 AI 技术,通过融合无线边缘网络的算力、通信、存储资源及感知能力,在 提供实时响应、智能化决策、网络自治的同时,赋能更加智能、高效的资源调配与处理机制, 最终实现车联网从接入“管道化”向信息智能化使能平台的跨越[15]。 然而,尽管边缘智能近年来已引起了学界的广泛关注,但边缘智能于车联网领域的成功 实施仍处于起步阶段,迫切需要以广阔的视角对这一新兴领域进行全面综述。为此,本文面 向车联网应用场景,首先介绍边缘智能的背景,概念及关键技术;然后,对车联网应用场景 中基于边缘智能的服务类型进行整体概述,同时详细阐述边缘智能模型的部署和实施过程; 最后,探讨边缘智能于车联网中的关键开放性挑战,以推动其潜在研究方向。 1 基本概念和关键启用技术
**1.1 边缘智能的基本概念 **
边缘智能通过结合边缘计算和 AI 技术的优势而生,近年来被运营商认为是摆脱 5G 网络 “被管道化”的有力支撑。边缘智能的出现对车联网系统效率、服务响应、调度优化和隐私 保护具有重要意义。本质上,在网络边缘引入 AI 技术可使 RSU 进行本地化模型训练和推断, 从而避免与远程云服务器的频繁通信。边缘智能强调将计算决策靠近数据源头,同时将智能 服务由云端推送至边缘侧,以减少服务的交付距离和时延,提升车辆的接入服务体验[18]。同 时,AI 模型从车联网的实际边缘环境中提取特征,通过与环境的反复迭代赋予高质量的边缘 计算服务。近十年来,深度学习[19]和强化学习[20-21]已逐渐成为边缘智能中的主流 AI 技术。 这里,深度学习可以从数据中自动提取特征和检测边缘异常,而强化学习可通过马尔可夫决 策过程和合适的梯度策略来实现目标,于网络的实时决策中发挥越来越重要的作用。 **1.2 边缘智能的关键启用技术 **
1.2.1 网络切片 网络切片是解决“一刀切”网络模式的重要技术,通过将网络虚拟划分为多个段,允许 在单一共享的物理基础设施上,创建多个逻辑独立的自包含网络实例(即网络切片)[22]。作 为虚拟化的端到端逻辑网络,任意切片都可被用于满足特定的业务类型,从而通过支持定制 的网络功能、层次抽象及不同类别的隔离(资源隔离、业务隔离、运维隔离)[23],实现车辆 对网络能力的差异化服务要求。网络切片的架构及功能示例如图 1 所示。
通常,为定制车载服务的异构资源组合,需面向车辆到基础设施(V2I, vehicle to infrastructure)的访问控制构建网络资源分配框架。于适当位置部署具有差异化性能要求的边 缘网络切片,可提高车联网整体资源利用率。同时,车联网固有的动态性和开放性使网络切 片对超可靠和低时延通信(URLLC, ultra-reliable and low latency communication)的需求不可 或缺,并可根据服务水平协议需求的差异化,支持跨多个无线接入网络的服务,为动态接入和效率服务定制灵活专用的资源分配和性能保证策略。通过在车联网中启用网络切片,不仅 可以降低车载应用时延,还可支持车载服务的流量优先级排序[22]。 1.2.2 软件定义网络 软件定义网络(SDN, software defined network)是一项将网络资源抽象至虚拟化系统的 基础架构方法,其本质是通过网络软件化简化网络管理和运维。SDN 可于现有物理网络上构 建虚拟的逻辑网络层,从而将控制层功能从数据层中解耦,并迁移至虚拟网络层,最终由具 有逻辑中心化和可编程的集中控制器上统一处理[24]。 近年来,SDN 与边缘计算结合使车联网的逻辑集中控制更为可靠,通过灵活性、可扩展 性及可编程性的优势来简化数据转发功能,相关优化内容涉及服务保证、定制开发以及扩展 和收缩网络资源。具体来说,鉴于在车联网中部署更多的 RSU 以应对车辆保有量增长导致的 系统整体成本骤增,SDN 作为其中的关键推动因素,为全局网络配置、基于成本效益的自适 应资源分配和车联网下异构元素聚合,提供了潜在的解决途径。车联网中异构的 SDN/NFV 架构如图 2 所示,SDN 架构由下到上分为数据层、控制层和应用层。一般情况下,集中控制 器部署于 RSU 边缘服务器,收集全局网络信息,包括流量负荷、车辆密度、服务类型、节点 资源容量等[24]。利用所收集信息,集中控制器在为业务流部署自适应路由协议同时,可通过 南向接口对资源切片和访问控制进行网络级配置,以提高资源利用率和降低整体运营成本。 然而,由于控制器依赖全局控制视图,因此在高度动态化的网络拓扑条件下如何应用无信令 开销的 SDN 值得深究。
**1.2.3 网络功能虚拟化 **
网络功能虚拟化(NFV, network function virtualization)是对 SDN 技术的补充,主要用于 将负载均衡、域名系统、网络地址转换、视频转码等网络功能与底层硬件服务器解耦[24]。其 目的在于通过虚拟化技术将网络功能编程为软件实例,为 SDN 软件提供可运行的基础架构。 一般情况下,NFV 运行于连接 RSU 的边缘服务器,以实现面向计算的服务定制和分发, 其中在边缘服务器的可编程软件实例通常被称为虚拟网络功能单元[25]。通过 NFV,边缘服务 运营商可灵活地于不同服务器上运行相应功能,或移动部分功能以应对车辆服务的需求变化, 从而降低整体运营成本并提高服务交付效率。事实上,SDN 和 NFV 在技术上呈现互补互利, 借助 NFV 和 SDN 可创建更加灵活、可编程且高效利用资源的网络架构。如图 2 所示,在车 联网场景下,SDN 与 NFV 的集成架构可实现灵活的交通路由管理、网络级资源切片,并通 过对车辆端执行信道访问控制最终实现高效的资源分配。 **2. 边缘智能模型的部署与实施 **
边缘智能已在车联网领域崭露头角,其价值在众多场景中都得到了体现。本节阐述了车 联网中 AI 模型的训练和推断过程。 **2.1 边缘智能车联系统中的模型训练 **
车联网环境下的边缘计算和 AI 融合,依赖于边-云连续体(edge-cloud continuum)中高 效的模型训练和推断,这对于实现高质量的服务部署至关重要。根据训练方式可分为集中式、 分散式和混合式训练 3 种模式。 1) 集中式训练模式
在集中式训练模式中,训练后的模型部署于云计算平台,而数据预处理、模型训练、消 息代理等工作都主要由云计算平台执行。具体而言,由于模型训练主要通过边云协同实现, 其性能很大程度上依赖于网络连接的质量。在训练阶段,RSU 负责采集覆盖范围内的道路信 息(此类信息由车辆产生,涉及车载服务、传感器、无线信道和交通流数据),并实时将其 上传至云端进行即时处理。基于数据分析和存储,云端将利用聚合数据于集中式训练集群中 不断训练模型。值得注意的是,尽管集中式训练模式有潜力检索到系统的全局最优解,但由 于系统必须依赖全局网络状态信息,模型训练的复杂度会随网络状态的增加呈指数增长。同 时,由于部署于云计算平台上的模型在空间距离上远离车辆,上传数据时须通过广域网络。 因此,数据传输和不可预测的网络连接状态,或将导致高时延、低效率、带宽成本高昂等缺 陷。此外,车辆数据资源的高度集中性使得该模式在受到网络攻击时,将更易导致敏感交通 数据的泄漏和丢失。 **2) 分布式训练模式 **
相比于依赖某一中心化节点(云端)进行全局模型更新,基于节点间参数和梯度互信互 通的分布式训练架构或将更适合边缘侧环境。事实上,每个 RSU 作为独立节点,应根据其感 知局部状态生成各自推断,但不同 RSU 决策间可能会存在显著差异。与此同时,车联网希望 在保护隐私的同时,从边缘智能部署中受益。因此,为规避相关缺陷,需要在边缘侧以高可 靠、分布式的方式训练模型。这一集成架构中所有 RSU 的训练均为等价,其通过去中心化的 方式从根本上避免了单点失效隐患,同时提高了网络的可拓展性和安全性。然而,受制于数 据源之间的时间相关性,独立部署于 RSU 的模型训练过程面临过拟合问题,而车联网中多个RSU 间的推断也通常相互影响。因此,多 RSU 间必须以协同方式进行模型训练或数据分析, 以共享局部训练并以此构建和改进全局训练模型。 与集中式训练相比,分布式训练具有隐私保护、个性化学习、可拓展性强的优势,但无 云化条件下其缺少全局参数汇聚的过程,意味着参数交换的拓扑结构对于模型的收敛性能和 训练效果至关重要,因此很大程度受资源有限、环境动态、数据分布、设备异构性的影响。 同时,分布式环境下节点间模型训练的信息协调的方式包括不同层级,对 RSU 算力的要求各 有不同,需基于服务部署代价和部署收益等多个量化指标研究训练模型的部署问题。此外, 联邦学习可在分布式训练下应用于数据敏感领域。需注意的是,分布式训练侧重于在边缘端 解析数据,而联邦学习则更侧重于分布式隐私保护。 **3) 混合式训练模式 **
实际上,受能耗、算力和存储资源限制,单个 RSU 独立训练和部署的 AI 参数规模有限。 因此,多种训练模式应考虑各自间的兼容性。为更好发挥多点协调优势,车联网中普遍采用 集中式和分布式相结合的混合式训练模式,有望打破单一训练模式的性能瓶颈。在该模式下, RSU 通过彼此间的分布式更新或云平台的集中训练协作训练 AI 模型。具体来说,每个 RSU 可根据其本地数据训练部分参数,并将参数或梯度聚合至某一中心节点进行全局模型升级, 而后中心节点将全局模型下发至各 RSU。经过 RSU 和中心节点间多轮次通信和迭代后,该 全局模型可达到与集中式训练相近的性能。此时,因私有数据在训练中始终存储于本地,使 得混合式训练模式所导致的隐私保护比分布式模式弱,但无疑比集中式训练模式更强。 此外,目前降低模型训练复杂度(包括样本复杂度和计算复杂度)主要从系统级和方法 级两方面开展。其中,系统级解决方案致力于调配更优的决策和训练方法,而方法级解决方 案则倾向于制定更优的通信系统模型或引入环境先验知识。同时,为减少模型训练过程中对 算力资源的依赖性,相关研究考虑在不影响精确度的情况下对模型进行剪枝处理,典型方法 如在训练过程中丢弃非必要权重及神经元、稀疏训练、输出重建误差等。其中,模型剪枝的 示例如图 5 所示,由于该多层感知网络中许多神经元的值为零,此类神经元在计算过程中并 不起作用,因而可以将其裁剪,以减少训练过程中的算力和存储需求。同时,针对模型剪枝 优化,文献[45]比较了部分权重分解与剪枝方法,并从精度、参数大小、中间特征大小、处理 时延及能耗等方面进一步讨论对比方法的优势和瓶颈。
**3.2 边缘智能车联系统中的模型推断 **
模型推断发生在模型训练之后,其主要是运行已训练完备的模型对未知结果的数据进行 预测。模型推断与模型训练相互结合,是一个往复循环、不断提升的过程,有效的模型推断 对于车联网下边缘智能的实施至关重要。根据上述模型类别,可分别在云端或独立的 RSU 上 执行模型推断。3 种典型的模型训练和推断模式见表 2。
具体而言,典型的模型推断方式包括集中式和分布式。集中式推断中,云端需收集所有 RSU 的信息(即全局信息),此时模型训练和推断都将于云端完成,推断结果将分别分发给 各 RSU;后者中,各 RSU 仅需在本地根据各自信息(即本地信息)执行本地模型推断,此 时,任意 RSU 还可与其他 RSU 交换部分模型信息,以提升分布式推断性能。相较于集中式 推断,分布式推断具有计算和通信能耗低、决策响应时间短、可扩展性强等优点,更适用于 网络状态变化快、对时延和能耗要求高的车联网场景。另外,在集中式训练模式中,云端既 可维护一套全局训练模型,以便对所有 RSU 进行集中推断,同时也可先为所有 RSU 训练一 套共享模型,再将训练完备的共享模型下发至各 RSU 进行分布式推断。一般来说,集中式推 断的常用方法包括监督学习、无监督学习和单智能体强化学习;而分布式推断的常用方法为 无监督学习和多智能体强化学习。模型推断的具体实现过程如图 6 所示。
另外,模型推断加速也是边缘服务优化的主要方向。调节推断时间的优化手段分为两种: 模型精简和模型切分。模型精简指根据节点、任务、模型的特征,动态选择最适合此节点的 模型,即在适当牺牲模型精确度的前提下,选择对资源需求更低,完成时间更快的“小模型”。 其中,不同模型精简方法的主要区别在于评价指标的差异化,Xu 等[46]考虑了用户的服务水 平协议需求和节点资源的使用量,而 Taylor 等[47]则将任务特征和期望精度作为推断评估的指 标。这里,模型切分指基于模型中神经网络的层次化计算结构,对计算任务进行分层或网格 切分,该方法可充分利用边缘侧和云端的计算特征,进行协同推断以实现推断加速。此时, 选择不同的模型切分点将导致不同计算时间,而最佳的模型切分点能最大限度发挥协同推断 的优势。Kang 等[48]设计了一项分层结构切分的方法,该方法根据神经网络层的粒度,在移动 设备和数据中心间确定任务切分的最优点。Karsavuran 等[49]利用稀疏张量的交替最小二乘方 法,提出了一项通用中等粒度切分的超图模型,该模型对任务切分不施加任何拓扑约束。