会员服务 ·

Github标星3400+！3.5M超超轻量中英文OCR模型开源，火了！

2020 年 9 月 24 日 PaperWeekly

导读

先看下飞桨文字识别套件PaddleOCR自今年年中开源以来，短短几个月在GitHub上的表现：

7月，8.6M超轻量模型发布，GitHub Trending全球日榜榜单第一！

8月，开源CVPR 2020顶会SOTA算法，再上GitHub趋势榜单！

9月，GitHub Star数量已超过3.4K，近期又带来哪些重磅更新？

果然，看9月最新更新，PaddleOCR再次诚意满满为大家带来真干货，直接看官方介绍：

数量上，这次PaddleOCR一口气发布了三个系列模型，满足移动端、服务器端各种场景需求。而且，多语言也妥妥安排上了，全部训练代码和模型毫无保留开源。其中3.5M超轻量文字识别模型，堪称目前业界开源的最轻量OCR模型了。

质量上，如此轻量的模型，效果有保障吗？不看广告，直接看疗效。

先看几个常见的通用场景识别效果：

3.5M的模型能达到这个识别精度，绝对是良心之作了！

传送门：

https://github.com/PaddlePaddle/PaddleOCR

论文下载链接：

https://arxiv.org/abs/2009.09941

快速体验PaddleOCR的

3.5M超轻量OCR模型

PC端快速尝试：（打开网页，选一张图片，即可实时看到结果）

https://www.paddlepaddle.org.cn/hub/scene/ocr

手机端App安装体验

PaddleOCR在百度大脑EasyEdge上开放了文字识别APP demo。

示例效果如下（可以在github首页找到下载二维码）：

多个开源repo测试对比

简单对比一下目前主流OCR方向开源repo的核心能力：

从性能指标来看：

针对OCR实际应用场景，包括合同，车牌，铭牌，火车票，化验单，表格，证书，街景文字，名片，数码显示屏等，收集的300张图像，每张图平均有17个文本框，PaddleOCR的F1-Score超过0.5，这个性能已经很不错了。

从功能完备来看：

预训练模型大小：EasyOCR目前暂无超轻量模型，chineseocr_lite最新的模型是4.7M左右，而PaddleOCR提供的3.5M无疑是目前业界已知最轻量的。
PIP安装：目前仅PaddleOCR和EasyOCR支持。
自定义训练：实际业务场景中，预训练模型往往不能满足需求，对于自定义训练和模型Finetuning，目前只有PaddleOCR支持。
部署方面：EasyOCR模型较大不适合端侧部署，Chineseocr_lite和PaddleOCR都具备端侧部署能力。

开发者可以根据自己的实际需求，选择适合自己的开源方案。

对于PaddleOCR 3.5MB的超轻量模型 ，是如何做到的，repo中也给出了解释。

3.5M超轻量模型应用了一套超轻量OCR系统PP-OCR，主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面，采用19个有效策略，对各个模块的模型进行效果调优和瘦身。

其中，飞桨模型压缩库PaddleSlim为PaddleOCR超轻量化模型的实现提供了核心的技术支撑。从超轻量模型8.1M的压缩到3.5M，模型大小降低了56.79%，其中检测模型速度提升21%，而且整体模型精度还有一定提升。

除了3.5M超轻量OCR模型，PaddleOCR提供了多语言预训练模型（英、德、法、韩、日），支持自定义训练和丰富的部署方式。

想了解更多。欢迎加入PaddleOCR技术交流群，第一时间获得技术支持。

招募活动预告

9月26日，飞桨将举办OCR方向的线下沙龙活动，欢迎北京OCR方向的开发者们，我们相聚中关村。

扫描海报中的二维码即可报名或加入OCR技术交流群

更多飞桨的相关内容，请参阅以下文档。

官网地址：

https://www.paddlepaddle.org.cn

·飞桨PaddleOCR项目地址·

GitHub:

https://github.com/PaddlePaddle/PaddleOCR

Gitee:

https://gitee.com/paddlepaddle/PaddleOCR

·飞桨PaddleSlim项目地址·

GitHub:

https://github.com/PaddlePaddle/PaddleSlim

Gitee:

https://gitee.com/paddlepaddle/PaddleSlim

PP-OCR技术文章：

https://arxiv.org/abs/2009.09941

也可以点击“查看原文”加入交流群

登录查看更多

相关内容

光学字符识别

关注 44

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

一份实用《图神经网络GNN》笔记，45页pdf

专知会员服务

119+阅读 · 2020年7月22日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

Tensorflow GNN实战：手把手教你使用tf_geometric构建图自编码器GAE（附完整代码）

专知会员服务

76+阅读 · 2020年1月30日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日