https://www.ccf.org.cn/Awards/Awards/2024-11-15/834347.shtml
模型推理是支撑诸多人工智能应用的关键,例如交通视频分析依赖于车辆 检测模型推理、自然语言问答服务需要基于大语言模型推理实现。将模型推理 任务部署于单一设备或同构集群上是最直接和成熟的方式,当下多数智能应用 采用这种方案,例如抖音应用基于手机端上部署的视觉模型实现各种视频特效、 OpenAI 使用大规模云上 GPU 集群支撑其 ChatGPT 问答服务。然而,随着智能模 型愈加复杂、应用场景不断拓宽,基于单一设备或同构集群的模型推理服务显现 出很多问题:(1) 环境高度动态,多个数据源分布存在差异,因此静态的推理策 略导致大量计算资源浪费;(2) 推理计算卸载引入的通信代价过高,端侧设备尤 其是移动设备难以承担;(3) 纯云侧部署的模型推理协议涉及完全明文通信,存 在严重的用户端数据隐私泄露风险;(4) 硬件算力受限,如智能物联网系统,单 一设备无法部署完整的模型等等。由于软硬件以及部署环境的不同,模型推理任 务在真实应用中不可避免地涉及多种异构设备。让这些异构设备合理地、智能地 协同执行模型推理,包括协同分担计算任务、协同消除通信数据冗余、协同进行 权限分离,是解决单一设备或同构集群面临的资源效率低、隐私安全保护弱等技 术挑战的有效途径。因此,本工作聚焦“异构协同模型推理”,通过探索异构设 备之间的协同机制,提高模型推理任务的动态自适应性、可扩展性、计算和通信 效率、以及对数据隐私安全的保障。具体地,本工作研究了(1)多端协同的并 发包门控,通过跨视频流协调解码资源的使用,增强视频实时分析系统中输入源 的可扩展性;(2)端边协同的输入过滤,端到端地学习出如何过滤冗余的输入数 据,提高通信和计算资源的利用效率;(3)端云协同的安全推理协议,以特征维 度的随机置换为基础,赋予模型推理对数据和参数的安全保障;(4)边云协同的 自适应模型部署,将原本孤立的模型集合构建为相互关联的模型网络,提高模型 部署效率。本工作在理论上分析了所提出技术的性能保障,证明了包门控算法的 在线遗憾边界、基于函数族复杂度对比的推理任务可过滤性、以及安全推理协议 的隐私泄露上界,并在多个真实系统中进行验证,相较于基线方法,实现显著节 省推理开销、大幅提高视频源并发度、优化通信效率等实际优化效果。 关键词:异构计算 端云协同 模型推理 任务调度 安全协议。