There are many real-life use cases such as barcode scanning or billboard reading where people need to detect objects and read the object contents. Commonly existing methods are first trying to localize object regions, then determine layout and lastly classify content units. However, for simple fixed structured objects like license plates, this approach becomes overkill and lengthy to run. This work aims to solve this detect-and-read problem in a lightweight way by integrating multi-digit recognition into a one-stage object detection model. Our unified method not only eliminates the duplication in feature extraction (one for localizing, one again for classifying) but also provides useful contextual information around object regions for classification. Additionally, our choice of backbones and modifications in architecture, loss function, data augmentation and training make the method robust, efficient and speedy. Secondly, we made a public benchmark dataset of diverse real-life 1D barcodes for a reliable evaluation, which we collected, annotated and checked carefully. Eventually, experimental results prove the method's efficiency on the barcode problem by outperforming industrial tools in both detecting and decoding rates with a real-time fps at a VGA-similar resolution. It also did a great job expectedly on the license-plate recognition task (on the AOLP dataset) by outperforming the current state-of-the-art method significantly in terms of recognition rate and inference time.


翻译:存在许多实际使用寿命的案例,例如条码扫描或广告牌阅读,人们需要在那里检测对象并阅读对象内容。通常采用的方法首先试图将目标区域本地化,然后确定布局和最后对内容单位进行分类。然而,对于像牌照这样的简单固定结构化结构对象,这种方法变得超常,而且运行时间过长。这项工作的目的是通过将多位数识别纳入一个阶段的物体探测模型,以轻量化的方式解决这一探测和阅读问题。我们的统一方法不仅消除了特征提取中的重复(一个用于本地化,一个用于分类),而且还为对象区域分类提供了有用的背景信息。此外,我们在建筑、损失功能、数据增强和培训方面选择了骨干和修改,使方法更加稳健、高效和快速。第二,我们为可靠评估制作了多种真实生活1D条码的公开基准数据集,我们收集、附加说明和仔细检查了这些数据。最后,实验结果通过在检测和解码问题上表现了方法的效率,在检测和解码率方面都超越了工业工具,在目标区域的实时Fps上提供了有用的背景信息信息。此外,在VGA-CP标准的当前确认率上,还做了一个高标准的确认。

0
下载
关闭预览

相关内容

如何构建你的推荐系统?这份21页ppt教程为你讲解
专知会员服务
65+阅读 · 2021年2月12日
专知会员服务
45+阅读 · 2020年10月31日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
108+阅读 · 2020年5月3日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
聊聊RTA(Realtime API)
AINLP
28+阅读 · 2020年6月5日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
4+阅读 · 2018年11月20日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关资讯
聊聊RTA(Realtime API)
AINLP
28+阅读 · 2020年6月5日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
已删除
将门创投
4+阅读 · 2018年11月20日
IEEE2018|An Accurate and Real-time 3D Tracking System for Robots
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Top
微信扫码咨询专知VIP会员