【机器视觉】百度邓凯鹏：飞桨视觉技术解析与应用

2020 年 6 月 21 日 产业智能官

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。 “AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。 2020年4月26日，第14期“AI未来说·青年学术论坛”深度学习线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度邓凯鹏带来报告《飞桨视觉技术解析与应用》。

百度邓凯鹏的报告视频

邓凯鹏，2017年本硕毕业于上海交通大学电子信息与电气工程学院，现于百度深度学习技术平台部从事CV方向模型研究和优化工作。PaddleDetection目标检测库和PaddleVideo视频库的核心设计者和开发者，两个模型库均是在工业端到端落地的优秀实践，支撑了大量线上业务，其中基于Paddle开发并优化的YOLOv3目标检测模型，在精度和速度上达到业界最优，通过裁剪蒸馏等方法压缩的YOLOv3模型在移动端精度和速度大幅领先于当前最优的SSDLite-MobileNetV3。Paddle 3D视觉方向负责人，完成Paddle 3D视觉方向的建设和推广，建设的Paddle 3D模型库支撑百度研究院发表论文10余篇。

报告内容：介绍飞桨视觉技术的发展现状，分析飞桨开源的各视觉模型库的特色和优势，并结合图像分类，目标检测和模型压缩及部署上端到端优化及应用案例，解读飞桨在视觉模型完备性和领先性上的已有建设工作，介绍视觉模型精度和预测速度优化上的方法技巧和实用效果，并分享飞桨在视觉模型选择，性能优化和部署应用上的优秀实践，解析飞桨视觉模型在工业应用实践上的优越性。

飞桨视觉技术解析与应用

首先，邓凯鹏老师介绍了当前飞桨框架以及视觉模型库CV的整体建设情况。飞桨框架是源自产业实践深度学习框架，同时支持静态图和动态图搭建网络，支持高效大规模分布式训练，同时推出了像PaddleSlim模型压缩还有安全加密的工具，以及在服务端和移动端进行预测部署一些引擎。基于飞桨框架，百度开源了自然语言处理、计算机视觉、推荐系统以及语音处理等模型库，在基础模型库之上又开源了一系列端到端开发套件，在端到端开发套件之上开源了一键式迁移学习工具PaddleHub，还有自动进行网络结构设计的AutoDL，另外还开源了定制化训练服务平台EasyDL以及一站式开发训练平台AI Studio。

接下来邓凯鹏老师列举了飞桨框架几大优势：（1）飞桨框架同时支持静态图和动态图，动态图组网和调试方便，静态图运行速度快、部署方便，同时支持静态图和动态图使开发更为便捷。（2）飞桨是支持超大规模深度学习并行模型的，在海量数据和模型快速迭代的场景中有很大的优势。（3）不仅使用和训练方便，飞桨框架和多端多平台推理部署基本上是无缝对接，并且有领先底层加速库，还有模型压缩工具针对服务器端和移动端的部署引擎。（4）在应用方面，飞桨推出经过实践验证的丰富应用模型库，开源了多个国际竞赛的冠军算法。

之后，邓凯鹏老师对计算机视觉进行了简要介绍。飞桨推出了工业级计算机视觉模型库，百度构建了图像分类、目标检测、图像分割、视频处理、图像生成、文字识别、度量学习以及3D视觉相关方面视觉能力，同时也构建了PaddleClas图像分类、PaddleDetection目标检测以及PaddleSeg图像分割这些端到端的开发套件，接下来邓凯鹏老师就主要基于PaddleClas和PaddleDetection应用介绍了飞桨在实际技术中建设。

（1）PaddleClas图像分类。图像分类的任务目标形象地说就是给计算机一张猫的图片，通过计算机实现算法或者模型让计算机准确判断这是只猫。图像分类的应用是十分广泛的。

飞桨团队技术开源了PaddleClas图像分类套件，这是为工业界和学术界打造图像分类任务的工具集，PaddleClas包含23个系列，多达117种分类模型，这也是当前丰富度最高的图像分类代码仓库。同时PaddleClas对于模型优化提供了最前沿的支持，比如，将ResNet50_vd精度优化到82.4%的SSLD知识蒸馏方案，也随着PaddleClas一起开源了。另外基于PaddleClas开源了多个特色应用以及工业级部署工具，在工业应用场景有非常好端到端的落地能力。

下面邓凯鹏老师具体地介绍了PaddleClas的优势。 PaddleClas图像分类库解析与应用提供了服务器端模型和端侧模型两个系列模型来支撑不同的运用场景。

图像分类模型有大有小，应用场景各不相同，如果在云端、服务器端上面部署模型时，一般认为算力是足够的，更倾向于追求模型精度；而手机端、嵌入式端移动端设备部署的时候，受限于设备算力和内存，对于模型大小、速度有更高的要求。

首先是服务器端模型，服务器端模型支持多个序列，最新的EfficientNet在PaddleClas已经支持了。邓凯鹏老师根据不同模型的预测实验曲线非常推荐大家使用ResNet_vd_SSLD系列模型，业界对于ResNeT支持和优化远比于EfficientNet要成熟，而ResNeT_vd是基于ResNeT的一个高效改进，同时百度自研SSLD知识蒸馏方案对其精度又进行了进一步提升。

然后是端侧模型MobileNet系列和ShuffleNet系列，邓凯鹏老师也根据端侧模型的精度以及在相应预测实验情况曲线推荐使用MobileNetV3_ssld系列，MobileNetV3本身精度和速度有很大优势，SSLD知识蒸馏又对它的精度进行了进一步提升。百度将MobileNetV3_large的精度提升79%，将small模型精度提升到71.3%。

（2）PaddleDetection目标检测库。目标检测也叫目标提取，即从图像中框出你感兴趣的目标，输出这个预测框的位置以及框中类别信息的任务。比如说在车辆检测中，目标检测需要在一个画面里框出车辆，并告知框里是什么类型的车，目标检测任务是计算机视觉主要方向之一，同时它也是实例分割、人员检测、关键点检测等任务的基础，目标检测任务在实际应用中也是非常广泛的。

PaddleDetection目标检测库基于飞桨核心框架，提供了多种模块化设计的检测器，并且提供了数据增强、损失函数等一系列的组件，还提供了丰富的模型库。同时PaddleDetection集成了模型压缩能力、跨平台部署能力，PaddleDetection检测部署方案目前支持工业质检、遥感图像检测、无人巡检等多个实际落地项目。

然后邓凯鹏老师列举了PaddleDetection一些特点，（1）模块化设计，这些模块可以轻松组合和扩展出你需要的目标检测器；（2）模型丰富，在模型库层面上百度支持了10余种主流算法，100多种目标检测模型，同时持续提升服务器端以及移动端优化改进模型，（3）高性能和工业级部署，PaddleDetection性能高，而且工业级部署上有一套全流程解决方案。

PaddleDetection在持续优化服务器端和端侧模型，其中服务器端的单阶段经典检测模型如YOLOv3。原作者的YOLOv3在COCO数据集上精度是33.0；而在PaddleDetection里YOLOv3版本实现过程中，使用了像大量图像增强等一系列的优化措施，精度达到了37.7%，是高于原作者4.7个百分点，同时推理速度也是领先于原作者的。

在此基础上百度对YOLOv3模型进行了进一步的优化，邓凯鹏老师详细介绍了一系列优化方法，比如IoU Loss。 YOLOv3的定位精度是相对较差的，那么如何提高定位精度呢？ IoU是定位精度的评估方式，直接把IoU的赋值作为loss的分量，那么在学习过程中就一直在优化IoU，以提升IoU方式提升训练精度，类似于所见即所得的思想，通过一系列的优化方式将YOLOv3模型精度优化43.6，高于原作者10.6的百分点，同时推理速度大幅的提升，优于竞品40%以上，可以说是性价比很高的模型了。

百度对于二阶段FasterRCNN模型也进行了一系列的优化，首先减小了NMS proposal的数量，减少了FPN的通道数，这样的精度是略有降低的，但通过修改其速度提升非常快。百度更进一步优化精度，比如用了PaddleClas里面开源SSLD知识蒸馏模型作为预训练权重用到了CLoU Loss、可变形卷积和自动图像增强等一系列的优化方式，将精度最终优化了5.2个百分点，推理速度提升了38%，在TeslaV100上预测速度达到60帧/秒。上文提到的YOLOv3、FasterRCNN等一系列的优化方式在都在PaddleDetection里面，通过组件方式来提供的，也就是说如果想优化自己目标检测模型，可以通过组件配置的方式通过PaddleDetection优化自己的模型。

上面介绍了服务器端模型优化情况，然后邓凯鹏老师介绍了移动端、嵌入式端这些端侧应用。百度推出了端侧模型库，端侧设备一般算力比较低，内存比较小，所以对模型运算量和大小要求比较高，同时端侧设备种类比较多，比如早期低端CPU，还有近年来刚推出骁龙885、麒麟980，这些相对算力比较高的CPU以及嵌入式GPU、NPU等设备。

PaddleDetection为此推出三个系列的模型，首先是适用于低算力的SSDLite及其量化模型，SSDLite在骁龙855上的推理时延只有41毫秒。如果需要兼顾速度和精度，PaddleDetection推出的YOLOv3压缩模型通过剪裁+蒸馏的方式，将YOLOv3在骁龙845上的推理时延优化100毫秒左右的时间，精度差不多达到25左右。在端上GPU或者NPU等一些高端设备，对于精度有很高的要求，百度推出的Cascade Faster RCNN模型在COCO数据集上的精度最高达到30.2%。

同时PaddleDetection也内置集成了模型压缩的能力，提供一键式剪裁、蒸馏、量化这些脚本，通过一键式剪裁+蒸馏的方案，将YOLOv3—MobileNetv1的计算量裁剪将近70%左右，在COCO数据集精度基本是无损的，在VOC数据集精度还略有提升，这个裁剪模型在移动端有三倍，GPU也有60%的加速，可以说非常给力。 YOLOv3—ResNet50 DCN这种模型，剪裁43%的计算量，精度提升0.6%，GPA加速20%，是更优的服务器端解决方案。

然后邓凯鹏老师介绍了基于PaddleDetection支持实际项目：输电线路网络可视化通道巡检。这个项目通过端侧智能设备的一个摄像头，通过部署在端侧智能设备的模型检测图片里是否存在安全隐患，如果存在隐患便将它上报系统。这个项目难点是需要进行复杂环境下多尺度、多目标的检测，而给端侧设备算力比较低，模型内存余量仅200M左右，但对于模型精度和速度的要求又比较高，它要求在很高准确率基础上检测速度达到秒级。

基于PaddleDetection解决方案是这样的：首先选择精度和预测速度性价比高YOLOv3—MobileNetV1模型，通过剪裁和量化，针对剪裁和量化减小了模型大小和计算量，通过使用精度更高YOLOv3—ResNet34模型作为teacher模型来蒸馏剪裁模型，提高模型精度，最后使用PaddleLite完成模型的部署，可以看到通过剪裁、蒸馏+量化一系列的措施在精度基本无损的情况下，将模型大小从360M压缩到112M，推理时延从3.5秒优化2.0秒，最后使用PaddleLite完成了3万余台监控设备的部署，这个项目成功落地解决。

最后邓凯鹏老师也简要介绍了在计算机视觉其他方向做的工作。比如飞桨语义分割库的主要模型、业界首个开源的视频分类工具集等。

先进制造业+工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进制造业OT（自动化+机器人+工艺+精益）和工业互联网IT（云计算+大数据+物联网+区块链+人工智能）产业智能化技术深度融合，在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的产业智能化平台；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

产业智能化平台作为第四次工业革命的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎；重构设计、生产、物流、服务等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生 新技术、新产品、新产业、新业态和新模式； 引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能化技术分支用来的今天，制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中， 利用工业互联网形成数字化、网络化和智能化力量，实现行业的重新布局、企业的重新构建和焕然新生。