华为云：边缘AI方案落地问题探讨及调研

2021 年 10 月 14 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源： 
          华为云边缘云创新实验室（Edge Cloud Innovation Lab，ECIL） 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        

     
     
       
    
    
      
    
    
      
     
     
       
      
      
        
       
       
          
            本文约8813字，建议阅读12分钟 
           
           本文介绍了如何兑现人工智能带来好处的承诺以及如何实现可信AI？

工业界实际业务和研究需求没有固定来源？

真实业务数据集及相关算法难以获取？

工业级边缘AI系统搭建费时费力？

黑科技算法找不到目标落地场景？

向学界业界发出声音的机会来了！

边缘AI技术趋势显现

在云上执行机器学习是传统而广泛为人所知的方法，基于云侧大规模算力，大部分大型云平台提供商均已提供机器学习服务。然而，机器学习所需的数据却往往并非直接从云平台中产生，而是来自传感器、手机、网关等边缘设备。

随着边缘设备的广泛使用和性能提升，将机器学习相关的部分任务迁移到边缘，也即边缘AI技术，已成为必然趋势，甚至能够同时结合云侧算力和边侧数据来完成机器学习任务。2018年，VMware发布了云环境扩展到边缘的框架。微软除Azure云外，也在物联网上投资50亿美元，因为“物联网最终正在发展成为新的智能边缘”。Garner预测， 到2022年，50%的企业生成数据将在传统集中式数据中心或云之外创建和处理，高于2018年的不到10% ，比如工厂内、飞机或石油钻井平台上、零售店或医疗器械中。

边缘AI技术挑战

机器学习服务将边缘产生的数据转换为知识的过程中，无疑首先需要在边缘快速响应并处理本地产生的数据。在对接大量边缘设备的边缘云时代，为运行机器学习服务，相关企业在传统云上机器学习基础上仍需面对更多权衡：

1、数据从边侧产生，而云端需从边侧采集数据以训练和不断完善机器学习模型。

2、大量延迟和成本等问题使得将大量边侧数据移动到云端数据中心变得不切实际。假设即使有100 Mbps的专网连接，将10TB的数据运送到云端也需要10天。面对大量边缘连接设备每天生成数百兆字节甚至TB数据，带来的延迟对客户和服务提供方来说往往是难以承受的；

3、大量设备的数据采样和传输仍会延迟甚至劣化企业基于新数据的知识获取。越来越多的计算机和传感器产生数百TB或者甚至PB的数据量，并且数据量正在迅速上升。正因为迁移所有数据通常是不切实际的，需要对数据进行“采样”(也称难例识别或未知任务发现)并传输到云端。“采样”过程存在时间和资源上的代价。“采样”到传输上云的过程，都将延迟完整数据集（包括最新数据和历史数据）的分析，企业最终被迫等待最新数据集传输到云才能进行处理。“采样”后的数据集也不一定能完全代表完整数据集，这可能带来精度损失。

4、部分项目的数据隐私和实时性需求导致数据迁移到集中式数据中心的方案不可选。

随着边缘设备的计算能力日益增强，将机器学习相关的计算任务嵌入到边缘，而不是在云上执行，成为一种必然趋势。在落地过程中，我们发现，在连接海量边缘节点的边缘云时代， 随着AI服务与边缘用户的距离缩短，通用AI原本部分技术挑战在边缘场景下变得更加尖锐。这里总结了四项挑战 ：

1、 资源受限 ：相对于便宜、按需获取的云端资源，边侧资源包括计算设备、供电设备、部署场地面积、AI开发环境等往往是有限或者异构的，边侧服务框架流程需要应对并兼容多种情况，建设与维护成本更高。

2、 数据孤岛 ：边缘存在天然的地理分布性。AI算法在工业应用时，往往面临数据无法共享和数据隐私保护、甚至网络瓶颈等问题，导致数据集在地理上天然分割，AI算法无法高效、准确地共同使用各个边缘节点的数据。传统集中式AI模式在边缘场景下各项AI系统性能下降(包括收敛速度, 数据传输量, 模型准确度等)。

3、 小样本 ：单个边缘通常仅有少量样本, 尤其在边侧服务启动初期普遍出现冷启动问题。同时，边侧大量非结构化样本的标注也比较困难，标注样本的数量较低。这导致传统大数据驱动的统计机器学习方法无法收敛或精度差。

4、 数据异构 ：数据集内存在多种特征、模型或标注分布，直接导致边缘测试样本的统计分布与训练集差异过大（也称Non-IID或OOD），使得通用AI模型在不同边缘的不同情境性能显著下降。对于同个租户，业务繁多也往往导致不同输入输出的算法和数据复杂多样（也称长尾算法或长尾数据），此时边云协同AI服务框架流程需同时应对和兼容相应业务数据，并统一权衡实现资源高效调度。

以楼宇空调节能参数推荐场景为例：

1、描述：冷机有多组参数可调，节能的关键是预测不同参数组合下的冷机能效比，推荐满足制冷条件下的最节能参数配置。

2、 边缘智能需求 ：

a) 新园区系统启用，需具备边侧冷启动能力实现快速交付；

b) 园区系统本地定制与自动闭环：边缘云服务在线采集数据，模型持续迭代；

c) 园区设备智能服务离线自治

3、 技术挑战 ：

a) 资源受限：园区边侧设备的数据存储与处理能力有限，在支撑多个系统服务同时机器学习服务容易卡顿，本地数据也只能保存数月。

b) 数据孤岛：同租户不同楼宇控制乃至电力系统不互通。

c) 小样本：新园区系统启用，需时间积累数据。冷机所有工况下所有参数组合全部运行采样不可行。

d) 数据异构：不同园区设备模型差异大，不存在单一通用模型。受工况、寿命等影响，模型随使用会逐渐变化。

从服务应用层面来讲， 当前边缘AI具有如下特点 ：

AR、VR、互动直播、视频监控等基于人机交互的多媒体行业场景下以非结构化数据为主。非结构化数据是指难以转化为便于信息系统进行语义解析的数值或统一格式的数据，如图像、文本等，通常由人类直接处理。主要采用深度神经网络方法。四大挑战中最关键的部分在于由于未标注数据量大导致的标注样本少、复杂系统下不相称的边侧资源受限。

工业、能源、金融等基于传统电子信息系统的行业场景下以结构化数据为主。结构化数据是指便于信息系统进行语义解析的数值或统一格式的数据，如数据库表格等，可由信息系统直接处理。主要使用非深度神经网络的机器学习算法，其算法建模方式多样，与业务相关性高。四大挑战中最关键的部分在于边侧小样本、跨边数据孤岛，以及数据异构下的服务可靠性乃至可解释性等。

KubeEdge社区简介

KubeEdge社区一直密切关注边缘AI相关挑战。KubeEdge是业界首个云原生边缘计算框架、云原生计算基金会内部唯一孵化级边缘计算开源项目。KubeEdge在全球已拥有800+贡献者和60+贡献组织，在Github获得4.5k+Stars和1.3k+Forks。作为KubeEdge中唯一的AI特别兴趣小组（Special Interest Group），KubeEdge社区SIG AI致力于使能AI应用在边缘更好地运行，聚焦边缘AI技术讨论、API定义、参考架构、开源实现等。针对上述四大挑战，当前已开源边缘智能平台Sedna及其跨边云的协同推理、联邦学习、增量学习和终身学习特性。

调研落地挑战

当前学界业界各团队的方案落地与成果转化到产业的进程正在紧锣密鼓地进行。很多团队已经遇到各式各样的困难，比如数据集难以获取、通用方案无法满足特定业务、缺乏商业成功案例等。仅靠技术并不足够完成落地和产业转化。

现在，为了让更多边缘AI领域的朋友多快好省地完成技术研发落地和商业闭环，我们准备 启动落地挑战调研 ，并结合行业关注的最新技术趋势进行 社区内容优化 ，最终集结开源社区力量为 边缘智能算法开发者、服务部署者、市场营销者 三种角色提供资源和平台帮助。社区将聚集SIG AI中30+单位的各供应商和开发者，提供 数据集开源、预处理与特性算法开源、以及AI工具 等行业内迫切需要的资源，为大家带来一场开源饕餮盛宴。

如果您在边缘AI落地过程中遇到过问题，如果您愿意为边缘AI技术与产业发展贡献一份力量，欢迎您到这个问卷中来吐槽！

请扫描下方 二维码 填写边缘AI落地挑战调查问卷并提交答案。本问卷均为选择题，耗时约3-5分钟。