Vedastr：基于PyTorch的场景文本识别工具箱

会员服务 ·

Vedastr：基于PyTorch的场景文本识别工具箱

2020 年 7 月 18 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

1. Vedastr的特性

STR(Scene Text Recognition)的任务是识别文字框中的内容。我们在做关于STR的项目时发现，相关开源的toolbox较少，调研后发现现有的toolbox存在以下几个问题：

模块化程度较低
提供可配置接口较少
更新维护较少

基于此，我们在调研了一系列的STR相关论文的基础上，构建了一个基于PyTorch的STR的toolbox——Vedastr，具有以下几个特性：

模块化
易拓展性
配置简单
较完善的日志系统
及时的更新维护

Vedastr项目链接：

https://github.com/Media-Smart/vedastr

2. Vedastr的运行方式

2.1 配置文件

Vedastr提供了开放式接口，可以在config文件配置相关参数。比如，我们配置optimizer和learning rate scheduler的参数：

optimizer = dict(type='Adam', lr=0.001)lr_scheduler = dict(type='StepLR', max_epochs=3, milestones=[100000, 200000])

2.2 Train、test和demo

Train

python tools/train.py config-path

Test

python tools/test.py config-path checkpoint-path

Demo

python tools/demo.py config-path checkpoint-path img-path

3. 预训练模型

3.1 使用Vedastr复现的模型性能

Vedastr目前支持基于attention、ctc、fc和transformer的str方法。我们复现了几个STR模型，你可以在Benchmark and model zoo找到他们。下面是我们的一些复现指标：

TPS-ResNet-BiLSTM-Attention：What Is Wrong With Scene Text Recognition Model Comparisons?
Small-SATRN：On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

3.2 使用预训练模型实现一个demo

举个简单的例子：

下载 TPS-ResNet-BiLSTM-Attention
下载vedastr，按照Installation进行安装
激活conda环境，运行demo文件，识别的结果就会显示在你的终端窗口上

python tools/demo.py configs/tps-resnet-bilstm-attention TPS-ResNet-BiLSTM-Attention.pth input-img

input-img:

终端窗口：

Vedastr项目链接如下，欢迎使用和star！

https://github.com/Media-Smart/vedastr

CVer-场景文本识别 微信交流群已成立

扫码添加CVer助手，可申请加入CVer-场景文本检测&识别 微信交流群，目前已汇集400人！涵盖OCR、场景文本检测与识别等。互相交流，一起进步！

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、TensorFlow和PyTorch等群。

一定要备注：研究方向+地点+学校/公司+昵称（如场景文本识别+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群