会员服务 ·

0

ECV 2021 冠军方案解读：渣土车识别方案

2021 年 11 月 11 日 极市平台

↑ 点击蓝字关注极市平台

作者丨胡可飞团队

编辑丨极市平台

极市导读

本文为获得渣土车识别冠军的胡可飞团队方案解读，团队选用了yolov5s网络来作为此次比赛任务的检测模型，最后优化的模型推理速度从9FPS最高到52FPS，已具备CPU上实时推理的能力。>>加入极市CV技术交流群，走在计算机视觉的最前沿

一、赛题回顾

本赛题希望基于计算机视觉技术可以实时监测到“黑车”，能及时、安全地管理渣土车，实现智能化管理，保证无“黑车”上岗，为创造智慧工地提供大力保障。赛题目标是使用计算机视觉算法对图片中的渣土车的车牌进行识别，并且输出车牌的文字内容。观察样例数据推测图片主要采集自交通监控摄像头。

比赛的评价指标由F1 score和性能分FPS组成，这要求算法设计要兼顾精度和速度，算法的推理性能要具备实时性（>30FPS）。本赛题主要难点如下：

采集自交通摄像头的图片存在分辨率低，对比对低，环境光污染等问题。
部分渣土车严重脏污导致车牌难以分辨。
人工标注存在错标（车牌中不应出现的字符），漏标，标准不一等问题（如遮挡严重的车牌）。
实时性要求高。

二、算法设计

主要算法设计如下图所示：

使用比赛数据标注训练检测模型，同时检测渣土车目标和车牌目标
将车牌部分抠图训练OCR识别模型
使用匈牙利算法对渣土车和车牌目标进行匹配
对算法进行轻量化等优化

其中检测模型我们选用了yolov5s网络，该网络具有较好的精度和速度的trade-off，常用于落地部署项目中。该检测网络直接使用数据标注的渣土车和车牌类进行训练，同时检出两类目标。最终输出中并不需要输出车牌框bbox，所以此处输出的车牌bbox仅用于提取车牌内容。

由于最终推理设备是cpu，所以对模型的轻量化要求较高，未经优化的yolov5s的推理速度越10FPS+，很难达到实时推理，所以我们对yolov5s网络进行剪枝，方法参考了slim-yolov3，通过bn层缩放系数，对模型各层的通道数进行结构化剪枝。剪枝的原理和操作流程如下：

稀疏化训练yolov5s
由bn层scaling factor对通道数进行排序
生成8倍数通道剪枝后模型结构config
使用剪枝后模型重新训练

由于检测网络同时输出渣土车和车牌的bbox，丢失了两者的关联关系，所以我们使用匈牙利算法对两者进行匹配，获得每个渣土车目标对应的车牌bbox。匹配的cost使用的是IoF，即Intersection over foreground，车牌即为foreground。理论上，车牌对于其所在的渣土车的IoF应该为1，实际匹配中我们设置了一个更宽松的阈值0.8。主要处理流程如下：

Conf过滤+NMS去除误检框
计算渣土车目标和车牌目标的iof代价矩阵
使用匈牙利算法得到与渣土车匹配的车牌
删除低质量匹配（iof < 0.8）

OCR部分我们使用了经典的CRNN网络，backbone等组成部分都选用了轻量化网络结构：

MobilenetV3
RNN
CTC head

因为检测网络已经输出了车牌bbox，且车牌bbox基本等于车牌的文字区域，考虑到算法整体的实时性要求，我们未使用专门的文字区域检测网络，而是将检测网络输出的车牌bbox直接抠图送入OCR网络进行推理。OCR的训练数据来自于原数据中使用车牌bbox抠图得到的车牌图片patch，数据的准备流程如下：

Bbox jitter：对原来的bbox标注添加随机抖动，模拟检测网络的回归误差，提高泛化性，防止OCR网络过拟合。
Data Cleaning：根据我国车牌的文字排列规则，对标注错误的数据进行剔除等。
Data augment：通用的OCR数据增强，如旋转，HSV，模糊等。
Weighted batch sample：由于车牌文字分布不均，在数据集采样时对出现频率低的字符提高权重。

整体算法流程即上文所述方法，为了提高推理速度，我们的轻量化策略主要如下：

Openvino转换
减小输入图片尺寸
检测模型yolov5剪枝
减小CRNN中间层通道数
前后处理性能优化

优化后模型的推理速度从9FPS最高到52FPS，已具备CPU上实时推理的能力。

消融实验的结果如下表：

三、总结

极市平台的比赛提供了免费算力，并对数据进行了加密，使比赛更加公平，选手可以将更多注意力放在算法设计和优化上。为了提高开发效率，减少bug的发生。在比赛初期，大家可以将样例数据下载下来，在本地的设备上完成主要流程的开发后，再复制到平台的开发环境中。

由于线上运行时触发代码bug，需要选手重新debug和排队，会严重影响开发效率，所以代码的debug十分重要，可以利用好logger功能，将主要信息写入日志。

由于比赛需要兼顾性能分，算法的轻量化工作十分重要，可以通过模型选型，剪枝，量化，模型复用等方法提高推理性能。

我们设计的算法兼顾了精度和速度，可以部署落地在边缘段设备中，但精度仍存在提升空间。

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“88”获取严彬：STARK-

基于时空Transformer的视觉目标跟踪PPT下载

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

0

相关内容

FPS

医学图像关键点检测深度学习方法研究与挑战

医学图像关键点检测深度学习方法研究与挑战

专知会员服务

51+阅读 · 2022年4月10日

军事知识图谱构建技术

军事知识图谱构建技术

专知会员服务

139+阅读 · 2022年4月8日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

[ICCV2021]自适应多模态选取框架用于视频理解

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

18+阅读 · 2021年10月30日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

专知会员服务

33+阅读 · 2020年8月7日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

烟雾识别冠军方案分享｜极市打榜

烟雾识别冠军方案分享｜极市打榜

极市平台

0+阅读 · 2022年4月11日

短袖短裤识别算法冠军方案总结 | 极市打榜

短袖短裤识别算法冠军方案总结 | 极市打榜

极市平台

3+阅读 · 2022年3月15日

极市直播｜AI开发应用部署及算法打榜冠军方案分享

极市直播｜AI开发应用部署及算法打榜冠军方案分享

极市平台

2+阅读 · 2021年12月16日

目标检测、语义分割新赛事！渣土车、积水识别两大赛题！免费云端算力支持！2021极市超新星算法竞赛正式启动

目标检测、语义分割新赛事！渣土车、积水识别两大赛题！免费云端算力支持！2021极市超新星算法竞赛正式启动

CVer

1+阅读 · 2021年12月2日

反光衣识别算法冠军方案总结（附源码）｜极市打榜

反光衣识别算法冠军方案总结（附源码）｜极市打榜

极市平台

0+阅读 · 2021年11月24日

ECV 2021 冠军方案解读：占道经营识别方案

ECV 2021 冠军方案解读：占道经营识别方案

极市平台

0+阅读 · 2021年11月15日

ECV 2021 冠军方案解读：船只数量检测方案

ECV 2021 冠军方案解读：船只数量检测方案

极市平台

0+阅读 · 2021年11月13日

ECV 2021 冠军方案解读：驾驶员不良驾驶识别方案

ECV 2021 冠军方案解读：驾驶员不良驾驶识别方案

极市平台

0+阅读 · 2021年11月10日

Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读

Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读

极市平台

0+阅读 · 2021年10月28日

法研杯2019阅读理解赛道冠军方案分享（含PPT）

法研杯2019阅读理解赛道冠军方案分享（含PPT）

AINLP

67+阅读 · 2019年8月25日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于全局和局部特征相融合的交通标志识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

多语言语音识别声学建模理论和容错识别新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

多自主水下航行器协同作业关键技术研究

国家自然科学基金

5+阅读 · 2012年12月31日

计算机辅助设计个体化导航模板在全膝关节置换的作用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

复杂条件下交通标识图文检测、识别与理解

国家自然科学基金

0+阅读 · 2011年12月31日

考虑拉压性能差异的结构拓扑优化理论及算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

多通道手语信息融合问题的研究

国家自然科学基金

0+阅读 · 2009年12月31日

An Efficient Wait-free Resizable Hash Table

Arxiv

0+阅读 · 2022年4月20日

Audio-Visual Wake Word Spotting System For MISP Challenge 2021

Arxiv

0+阅读 · 2022年4月19日

CenterNet++ for Object Detection

Arxiv

0+阅读 · 2022年4月18日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

InCoder: A Generative Model for Code Infilling and Synthesis

Arxiv

0+阅读 · 2022年4月17日

Logical Inference for Counting on Semi-structured Tables

Arxiv

0+阅读 · 2022年4月16日

One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget

Arxiv

0+阅读 · 2022年4月16日

Mind Your Clever Neighbours: Unsupervised Person Re-identification via Adaptive Clustering Relationship Modeling

Arxiv

13+阅读 · 2021年12月3日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

VIP会员

相关主题

光学字符识别

计算机视觉

相关VIP内容

医学图像关键点检测深度学习方法研究与挑战

医学图像关键点检测深度学习方法研究与挑战

专知会员服务

51+阅读 · 2022年4月10日

军事知识图谱构建技术

军事知识图谱构建技术

专知会员服务

139+阅读 · 2022年4月8日

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

内存瓶颈和计算负载问题一举突破？韩松团队提出MUCNetV2：解锁MCU端新纪录！

专知会员服务

13+阅读 · 2021年11月6日

[ICCV2021]自适应多模态选取框架用于视频理解

[ICCV2021]自适应多模态选取框架用于视频理解

专知会员服务

18+阅读 · 2021年10月30日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

首篇《后门学习综述》论文发布，阐述AI系统训练过程的安全性问题

专知会员服务

30+阅读 · 2020年11月21日

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

Transformer模型框架摘走50万！2020腾讯广告算法比赛冠军（附代码方案）

专知会员服务

33+阅读 · 2020年8月7日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

华为发布《自动驾驶网络解决方案白皮书》

华为发布《自动驾驶网络解决方案白皮书》

专知会员服务

130+阅读 · 2020年5月22日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

烟雾识别冠军方案分享｜极市打榜

烟雾识别冠军方案分享｜极市打榜

极市平台

0+阅读 · 2022年4月11日

短袖短裤识别算法冠军方案总结 | 极市打榜

短袖短裤识别算法冠军方案总结 | 极市打榜

极市平台

3+阅读 · 2022年3月15日

极市直播｜AI开发应用部署及算法打榜冠军方案分享

极市直播｜AI开发应用部署及算法打榜冠军方案分享

极市平台

2+阅读 · 2021年12月16日

目标检测、语义分割新赛事！渣土车、积水识别两大赛题！免费云端算力支持！2021极市超新星算法竞赛正式启动

目标检测、语义分割新赛事！渣土车、积水识别两大赛题！免费云端算力支持！2021极市超新星算法竞赛正式启动

CVer

1+阅读 · 2021年12月2日

反光衣识别算法冠军方案总结（附源码）｜极市打榜

反光衣识别算法冠军方案总结（附源码）｜极市打榜

极市平台

0+阅读 · 2021年11月24日

ECV 2021 冠军方案解读：占道经营识别方案

ECV 2021 冠军方案解读：占道经营识别方案

极市平台

0+阅读 · 2021年11月15日

ECV 2021 冠军方案解读：船只数量检测方案

ECV 2021 冠军方案解读：船只数量检测方案

极市平台

0+阅读 · 2021年11月13日

ECV 2021 冠军方案解读：驾驶员不良驾驶识别方案

ECV 2021 冠军方案解读：驾驶员不良驾驶识别方案

极市平台

0+阅读 · 2021年11月10日

Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读

Swin-Transformer再次助力夺冠 | Kaggle第1名方案解读

极市平台

0+阅读 · 2021年10月28日

法研杯2019阅读理解赛道冠军方案分享（含PPT）

法研杯2019阅读理解赛道冠军方案分享（含PPT）

AINLP

67+阅读 · 2019年8月25日

相关基金

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于全局和局部特征相融合的交通标志识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

多语言语音识别声学建模理论和容错识别新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于稀疏表示技术的大规模医学图像检索新方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

多自主水下航行器协同作业关键技术研究

国家自然科学基金

5+阅读 · 2012年12月31日

计算机辅助设计个体化导航模板在全膝关节置换的作用研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

复杂条件下交通标识图文检测、识别与理解

国家自然科学基金

0+阅读 · 2011年12月31日

考虑拉压性能差异的结构拓扑优化理论及算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

多通道手语信息融合问题的研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

An Efficient Wait-free Resizable Hash Table

Arxiv

0+阅读 · 2022年4月20日

Audio-Visual Wake Word Spotting System For MISP Challenge 2021

Arxiv

0+阅读 · 2022年4月19日

CenterNet++ for Object Detection

Arxiv

0+阅读 · 2022年4月18日

Visio-Linguistic Brain Encoding

Arxiv

0+阅读 · 2022年4月18日

InCoder: A Generative Model for Code Infilling and Synthesis

Arxiv

0+阅读 · 2022年4月17日

Logical Inference for Counting on Semi-structured Tables

Arxiv

0+阅读 · 2022年4月16日

One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget

Arxiv

0+阅读 · 2022年4月16日

Mind Your Clever Neighbours: Unsupervised Person Re-identification via Adaptive Clustering Relationship Modeling

Arxiv

13+阅读 · 2021年12月3日

Pix2seq: A Language Modeling Framework for Object Detection

Arxiv

10+阅读 · 2021年9月22日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

大家都在搜

大型语言模型

朱克爱德华兹家族

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员