更轻量的 cnocr-V1.1.0 :最小模型只有 6.8M

2020 年 4 月 24 日 AINLP

作者:吴金龙,爱因互动技术合伙人,算法负责人

知乎专栏:智能对话机器人技术

原文链接:

https://zhuanlan.zhihu.com/p/134115239




cnocr 是Python3下的中英文OCR包,通过pip命令安装后即可直接使用。

pip install cnocr==1.1.0

V1.1.0 对代码做了很大改动,重写了大部分训练的代码,也生成了更多更难的训练和测试数据。训练好的模型相较于之前版本的模型精度有显著提升,尤其是针对英文单词的识别。

以下列出了主要的变更:

  • 更新了训练代码,使用mxnet的recordio首先把数据转换成二进制格式,提升后续的训练效率。训练时支持对图片做实时数据增强。也加入了更多可传入的参数。

  • 允许训练集中的文字数量不同,目前是中文10个字,英文20个字母。

  • 提供了更多的模型选择,允许大家按需训练多种不同大小的识别模型。

  • 内置了各种训练好的模型,最小的模型只有之前模型的1/5大小。所有模型都可免费使用。

  • 相较于之前版本的模型,新的模型精度有显著提升,尤其是针对英文单词的识别。新模型已经可以识别英文单词间的空格。

  • 支持文字识别只在给定字符集中进行。 对于一些纯数字或者纯英文字母的应用场景可以带来识别率提升。

  • 优化了对黑底白字多行文字图片的支持。

  • mxnet依赖升级到更新的版本了。很多人反馈mxnet 1.4.1经常找不到没法装,现在升级到>=1.5.0,<1.7.0

示例

自带可直接使用的模型

cnocr的ocr模型可以分为两阶段:第一阶段是获得ocr图片的局部编码向量,第二部分是对局部编码向量进行序列学习,获得序列编码向量。目前两个阶段分别包含以下的模型:

  1. 局部编码模型(emb model)

  • conv:多层的卷积网络;

  • conv-lite:更小的多层卷积网络;

  • densenet:一个小型的densenet网络;

  • densenet-lite:一个更小的densenet网络。

2. 序列编码模型(seq model)

    • lstm:两层的LSTM网络;

    • gru:两层的GRU网络;

    • fc:两层的全连接网络。


cnocr目前包含以下可直接使用的模型,训练好的模型都放在 cnocr-models 项目中,可免费下载使用:


更多的说明可参见 cnocr 项目说明,或者之前的介绍文章:

BreezeDeus:cnocr: 极简的中文OCR Python包 zhuanlan.zhihu.com


相关链接:

https://github.com/breezedeus/cnocr

https://zhuanlan.zhihu.com/p/60767671




本文由作者授权发布于AINLP公众号,点击文末“阅读原文”直达原文。


推荐阅读

AINLP年度阅读收藏清单

百度PaddleHub&nbsp;NLP模型全面升级,推理性能提升50%以上

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

From Word Embeddings To Document Distances 阅读笔记

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课,我放到B站了

可解释性论文阅读笔记1-Tree Regularization

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


登录查看更多
0

相关内容

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
27+阅读 · 2020年7月23日
专知会员服务
119+阅读 · 2020年7月22日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
61+阅读 · 2020年6月25日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
44+阅读 · 2020年4月17日
【CVPR2020-百度】用于视觉识别的门控信道变换
专知会员服务
13+阅读 · 2020年3月30日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
【OCR技术】大批量构造中文文字训练集
数据挖掘入门与实战
7+阅读 · 2018年4月7日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
OCR 哪家强?反正我觉得这个工具是厉害的不得了。
高效率工具搜罗
4+阅读 · 2017年7月3日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
VIP会员
相关资讯
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
【OCR技术】大批量生成文字训练集
七月在线实验室
9+阅读 · 2019年3月11日
word2vec中文语料训练
全球人工智能
12+阅读 · 2018年4月23日
【OCR技术】大批量构造中文文字训练集
数据挖掘入门与实战
7+阅读 · 2018年4月7日
腾讯数平精准推荐 | OCR技术之检测篇
机器学习研究会
13+阅读 · 2018年3月17日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
深度学习CTPN+CRNN模型实现图片内文字的定位与识别(OCR)
数据挖掘入门与实战
16+阅读 · 2017年11月25日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
OCR 哪家强?反正我觉得这个工具是厉害的不得了。
高效率工具搜罗
4+阅读 · 2017年7月3日
Top
微信扫码咨询专知VIP会员