Scene Text Image Transformer是用于场景文本数据增强的工具。 我们提供的工具可以避免过度拟合并获得模型的稳健性。
目前我们专注于裁剪场景文本图像的形状。 检测和识别任务的下一个版本将在稍后发布。
https://github.com/Canjie-Luo/Scene-Text-Image-Transformer
GCC 4.8.*
Python 2.7.*
Boost 1.67
OpenCV 2.4.*
我们推荐使用 Anaconda 去管理你的依赖环境。例如:
conda install boost=1.67.0
建立目录:
mkdir build
cd build
cmake -D CUDA_USE_STATIC_CUDA_RUNTIME=OFF ..
make
将Augment.so复制到目标文件夹,然后按照demo.py的样例使用该工具。
cp Augment.so ..
cd ..
python demo.py
Distortion - 变形
Stretch - 伸展
Perspective - 透视
使用2.0GHz的CPU转换大小(H:64,W:200)的图像仅需3ms不到。 可以通过动态调用多进程批处理采样器来加速该过程,例如在PyTorch中设置"num_workers"。
我们比较了仅使用相应的小训练集训练 CRNN 的准确性。
数据集 |
IIIT5K |
IC13 |
IC15 |
没有数据扩充 |
40.8% |
6.8% |
8.7% |
有数据扩充 |
53.4% |
9.6% |
24.9% |
@inproceedings{schaefer2006image,
title={Image deformation using moving least squares},
author={Schaefer, Scott and McPhail, Travis and Warren, Joe},
booktitle={ACM transactions on graphics (TOG)},
volume={25},
number={3},
pages={533--540},
year={2006},
organization={ACM}
}
该工具是@cxcxcxcx's imgwarp-opencv 和 @Yati Sagade's opencv-ndarray-conversion的结合。 谢谢你们的贡献。
代码主要提交者:Canjie-Luo ,来自SCUT DLVC-Lab(华南理工大学深度学习与视觉计算实验室)
该工具仅用于学术研究目的。
如需了解更多详情,请点击文末 阅读原文 进行了解
【AI求职百题斩】已经悄咪咪上线啦,还不赶紧来答题?!
点击 阅读原文 查看本文更多内容↙