【导读】Vedastr 是一个基于Pytorch的开源场景文字识别工具箱。
特性
模块化设计
我们将场景文本识别框架分解为不同的组件,并且可以通过组合不同的模块轻松构建定制的场景文本识别框架。
灵活性
Vedastr具有足够的灵活性,能够轻松更改模块中的组件。
模块扩展性
将新模块集成到vedastr项目中很容易。
支持多种框架
该工具箱支持几种流行的场景文本识别框架,例如CRNN,TPS-ResNet-BiLSTM-Attention,Transformer等。
很棒的性能
我们在深层文本识别基准中重新实现了最佳模型,并获得了更好的平均准确性。而且,我们实现了一个简单的基准(ResNet-FC),性能是可以接受的。
安装
系统要求
Linux
Python 3.6+
PyTorch 1.2.0 or higher
CUDA 9.0 or higher
安装Vedastr
1. 新建一个conda虚拟环境
conda create -n vedastr python=3.6 -y
conda activate vedastr
2. 安装Pytorch与torchvision
conda install pytorch torchvision -c pytorch
3. 下载vedastr库
git clone https://github.com/Media-Smart/vedastr.git
cd vedastr
vedastr_root=${PWD}
4. 安装依赖
pip install -r requirements.txt
数据准备
从下列网站下载数据
https://github.com/clovaai/deep-text-recognition-benchmark
新建数据文件夹
cd ${vedastr_root}
mkdir ${vedastr_root}/data
按下列结构组织下载好的数据
data
└── data_lmdb_release
├── evaluation
├── training
│ ├── MJ
│ │ ├── MJ_test
│ │ ├── MJ_train
│ │ └── MJ_valid
│ └── ST
└── validation
训练
python tools/trainval.py configs/clova.py
测试
python tools/test.py configs/clova.py path_to_clova_weights