Vedastr:基于PyTorch的场景文本识别工具箱

2020 年 7 月 21 日 极市平台

加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~

就在明天极市平台与重磅邀请到ICML 2020杰出论文一作魏恺轩,为我们深度讲解论文相关工作:免调试即插即用的近端优化算法请大家锁定直播时间7月22日(周三)20:00。详情戳这里,在极市平台后台回复“62”,即可获取直播链接本次直播由极市平台和中国图象图形学学会青年工作委员联合组织。

1. Vedastr的特性


STR(Scene Text Recognition) 的任务是识别文字框中的内容。我们在做关于STR的项目时发现,相关开源的toolbox较少,调研后发现现有的toolbox存在以下几个问题:

  1. 模块化程度较低

  2. 提供可配置接口较少

  3. 更新维护较少


基于此,我们在调研了一系列的STR相关论文的基础上,构建了一个基于PyTorch的STR的toolbox——Vedastr,具有以下几个特性:


  1. 模块化

  2. 易拓展性

  3. 配置简单

  4. 较完善的日志系统

  5. 及时的更新维护


Vedastr项目链接:
https://github.com/Media-Smart/vedastr



2. Vedastr的运行方式


2.1 配置文件


Vedastr提供了开放式接口,可以在config文件配置相关参数。比如,我们配置optimizer和learning rate scheduler的参数:


   
   
     
optimizer = dict(type='Adam', lr=0.001) lr_scheduler = dict(type='StepLR', max_epochs=3, milestones=[100000, 200000])

2.2 Train、test和demo


  • Train

   
   
     
python tools/train.py config-path


  • Test

   
   
     
python tools/test.py config-path checkpoint-path

  • Demo

   
   
     
python tools/demo.py config-path checkpoint-path img-path

3. 预训练模型


3.1 使用Vedastr复现的模型性能


Vedastr目前支持基于attention、ctc、fc和transformer的str方法。我们复现了几个STR模型,你可以在Benchmark and model zoo找到他们。下面是我们的一些复现指标:


  • TPS-ResNet-BiLSTM-Attention:What Is Wrong With Scene Text Recognition Model Comparisons?

  • Small-SATRN:On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention


3.2 使用预训练模型实现一个demo


举个简单的例子:


  1. 下载 TPS-ResNet-BiLSTM-Attention

  2. 下载vedastr,按照Installation进行安装

  3. 激活conda环境,运行demo文件,识别的结果就会显示在你的终端窗口上


   
   
     
python tools/demo.py configs/tps-resnet-bilstm-attention TPS-ResNet-BiLSTM-Attention.pth input-img

input-img:



终端窗口:



Vedastr项目链接如下,欢迎使用和star!
https://github.com/Media-Smart/vedastr


推荐阅读



添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 极市技术交流群 ,更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   
登录查看更多
1

相关内容

一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
212+阅读 · 2020年1月13日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
12+阅读 · 2019年12月19日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Pytorch作者Adam Paszke-53页Pytorch教程PPT
专知
34+阅读 · 2018年10月27日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
6+阅读 · 2019年4月4日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
3+阅读 · 2018年10月18日
Deep Randomized Ensembles for Metric Learning
Arxiv
5+阅读 · 2018年9月4日
VIP会员
相关VIP内容
一份简单《图神经网络》教程,28页ppt
专知会员服务
125+阅读 · 2020年8月2日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
212+阅读 · 2020年1月13日
【NeurIPS 2019的主要趋势】Key trends from NeurIPS 2019
专知会员服务
12+阅读 · 2019年12月19日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
图神经网络库PyTorch geometric
图与推荐
17+阅读 · 2020年3月22日
47.4mAP!最强Anchor-free目标检测网络:SAPD
极市平台
13+阅读 · 2019年12月16日
港中文开源基于PyTorch的多任务人脸识别框架
极市平台
17+阅读 · 2019年8月31日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
PyTorch语义分割开源库semseg
极市平台
25+阅读 · 2019年6月6日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
TorchSeg:基于pytorch的语义分割算法开源了
极市平台
20+阅读 · 2019年1月28日
Pytorch作者Adam Paszke-53页Pytorch教程PPT
专知
34+阅读 · 2018年10月27日
Top
微信扫码咨询专知VIP会员