开源OCR文本检测器,基于TextBoxes++和RetinaNet

2019 年 11 月 15 日 专知

【导读】OCR由文本定位和文本识别组件构成。本文介绍Github上的一个开源文本定位组件Text_Detector,它使用了RetinaNet的结构和textboxes++中的一些技术。


OCR由文本定位和文本识别组件构成,文本定位组件寻找文本所在的位置,文本识别组件识别每个字符。本文介绍一个开源文本位置探测器Text_Detector,它的Github地址为:

https://github.com/qjadud1994/Text_Detector


Text_Detector使用了RetinaNet和textboxes++中的一些技术:

  • RetinaNet: https://arxiv.org/pdf/1708.02002.pdf

  • textboxes++: https://arxiv.org/pdf/1801.02765.pdf


Text_Detector的Github页给出了一些较好的识别结果和较差的识别结果。

较好的识别结果如下:


在一些垂直文本或长文本等情况下,Text_Detector的效果不太理想:


Text_Detector依赖的环境如下:

  • 操作系统 : Ubuntu 16.04.4 LTS

  • GPU : Tesla P40 (24GB)

  • Python : 3.6.6

  • Tensorflow : 1.10.0

  • Pytorch : 0.4.1

  • tensorboardX : 1.2

  • CUDA, CUDNN : 9.0, 7.1.3


更多关于Text_Detector的细节可以在它的Github主页上找到。


参考链接:

  • https://github.com/qjadud1994/Text_Detector


更多关于“OCR文字识别”的论文知识资料,请登录专知网站www.zhuanzhi.ai查看,或者点击“阅读原文查看:

https://www.zhuanzhi.ai/topic/2001932433033143/awesome




-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册使用专知
登录查看更多
11

相关内容

RetinaNet是2018年Facebook AI团队在目标检测领域新的贡献。它的重要作者名单中Ross Girshick与Kaiming He赫然在列。来自Microsoft的Sun Jian团队与现在Facebook的Ross/Kaiming团队在当前视觉目标分类、检测领域有着北乔峰、南慕容一般的独特地位。这两个实验室的文章多是行业里前进方向的提示牌。 RetinaNet只是原来FPN网络与FCN网络的组合应用,因此在目标网络检测框架上它并无特别亮眼创新。文章中最大的创新来自于Focal loss的提出及在单阶段目标检测网络RetinaNet(实质为Resnet + FPN + FCN)的成功应用。Focal loss是一种改进了的交叉熵(cross-entropy, CE)loss,它通过在原有的CE loss上乘了个使易检测目标对模型训练贡献削弱的指数式,从而使得Focal loss成功地解决了在目标检测时,正负样本区域极不平衡而目标检测loss易被大批量负样本所左右的问题。此问题是单阶段目标检测框架(如SSD/Yolo系列)与双阶段目标检测框架(如Faster-RCNN/R-FCN等)accuracy gap的最大原因。在Focal loss提出之前,已有的目标检测网络都是通过像Boot strapping/Hard example mining等方法来解决此问题的。作者通过后续实验成功表明Focal loss可在单阶段目标检测网络中成功使用,并最终能以更快的速率实现与双阶段目标检测网络近似或更优的效果。
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】NLP多标签文本分类代码实现工具包
专知
40+阅读 · 2019年11月20日
携程自研的OCR项目
专知
23+阅读 · 2019年8月12日
CVPR 2019 论文开源项目合集
专知
18+阅读 · 2019年4月7日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
相关资讯
【资源】NLP多标签文本分类代码实现工具包
专知
40+阅读 · 2019年11月20日
携程自研的OCR项目
专知
23+阅读 · 2019年8月12日
CVPR 2019 论文开源项目合集
专知
18+阅读 · 2019年4月7日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
OCR开源库(文本区域定位和文本识别):github
数据挖掘入门与实战
28+阅读 · 2017年11月26日
Top
微信扫码咨询专知VIP会员