Vedastr:基于PyTorch的场景文本识别工具箱

2020 年 7 月 18 日 CVer

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

1. Vedastr的特性


STR(Scene Text Recognition)的任务是识别文字框中的内容。我们在做关于STR的项目时发现,相关开源的toolbox较少,调研后发现现有的toolbox存在以下几个问题:


  1. 模块化程度较低

  2. 提供可配置接口较少

  3. 更新维护较少


基于此,我们在调研了一系列的STR相关论文的基础上,构建了一个基于PyTorch的STR的toolbox——Vedastr,具有以下几个特性:


  1. 模块化

  2. 易拓展性

  3. 配置简单

  4. 较完善的日志系统

  5. 及时的更新维护


Vedastr项目链接:

https://github.com/Media-Smart/vedastr


2. Vedastr的运行方式


2.1 配置文件


Vedastr提供了开放式接口,可以在config文件配置相关参数。比如,我们配置optimizer和learning rate scheduler的参数:


optimizer = dict(type='Adam', lr=0.001)lr_scheduler = dict(type='StepLR', max_epochs=3, milestones=[100000, 200000])


2.2 Train、test和demo


  • Train

python tools/train.py config-path


  • Test

python tools/test.py config-path checkpoint-path


  • Demo

python tools/demo.py config-path checkpoint-path img-path


3. 预训练模型


3.1 使用Vedastr复现的模型性能


Vedastr目前支持基于attention、ctc、fc和transformer的str方法。我们复现了几个STR模型,你可以在Benchmark and model zoo找到他们。下面是我们的一些复现指标:



  • TPS-ResNet-BiLSTM-Attention:What Is Wrong With Scene Text Recognition Model Comparisons?

  • Small-SATRN:On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention


3.2 使用预训练模型实现一个demo


举个简单的例子:


  1. 下载 TPS-ResNet-BiLSTM-Attention

  2. 下载vedastr,按照Installation进行安装

  3. 激活conda环境,运行demo文件,识别的结果就会显示在你的终端窗口上


python tools/demo.py configs/tps-resnet-bilstm-attention TPS-ResNet-BiLSTM-Attention.pth input-img


input-img:



终端窗口:



Vedastr项目链接如下,欢迎使用和star!

https://github.com/Media-Smart/vedastr



CVer-场景文本识别 微信交流群已成立


扫码添加CVer助手,可申请加入CVer-场景文本检测&识别 微信交流群,目前已汇集400人!涵盖OCR、场景文本检测与识别等。互相交流,一起进步!


同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TensorFlow和PyTorch等群。


一定要备注:研究方向+地点+学校/公司+昵称(如场景文本识别+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加群


▲长按关注我们

麻烦给我一个在看!

登录查看更多
0

相关内容

一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
专知会员服务
118+阅读 · 2020年7月22日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
11+阅读 · 2019年12月19日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
Pytorch作者Adam Paszke-53页Pytorch教程PPT
专知
34+阅读 · 2018年10月27日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
资源 | 图森未来开源:Mask R-CNN的完整MXNet复现
机器之心
6+阅读 · 2017年10月26日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
6+阅读 · 2019年4月4日
Arxiv
3+阅读 · 2018年10月18日
Auto-Context R-CNN
Arxiv
4+阅读 · 2018年7月8日
VIP会员
相关资讯
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
Pytorch作者Adam Paszke-53页Pytorch教程PPT
专知
34+阅读 · 2018年10月27日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
资源 | 图森未来开源:Mask R-CNN的完整MXNet复现
机器之心
6+阅读 · 2017年10月26日
Top
微信扫码咨询专知VIP会员