For successful scene text recognition (STR) models, synthetic text image generators have alleviated the lack of annotated text images from the real world. Specifically, they generate multiple text images with diverse backgrounds, font styles, and text shapes and enable STR models to learn visual patterns that might not be accessible from manually annotated data. In this paper, we introduce a new synthetic text image generator, SynthTIGER, by analyzing techniques used for text image synthesis and integrating effective ones under a single algorithm. Moreover, we propose two techniques that alleviate the long-tail problem in length and character distributions of training data. In our experiments, SynthTIGER achieves better STR performance than the combination of synthetic datasets, MJSynth (MJ) and SynthText (ST). Our ablation study demonstrates the benefits of using sub-components of SynthTIGER and the guideline on generating synthetic text images for STR models. Our implementation is publicly available at https://github.com/clovaai/synthtiger.
翻译:对于成功的现场文本识别模型,合成文本图像生成器减轻了现实世界缺少附加说明文本图像的情况。 具体地说, 合成文本图像生成器生成了具有不同背景、 字体样式和文本形状的多文本图像, 使STR模型能够学习可能无法从手动附加说明数据中获得的视觉模式。 在本文中, 我们引入了新的合成文本图像生成器, 合成TIGER, 方法是分析用于文本图像合成的技术, 并将有效图像整合到一个单一的算法中。 此外, 我们提出了两种技术, 缓解培训数据长度和字符分布方面的长尾问题。 在我们的实验中, 合成TIGER 取得了比合成数据集、 MJSynth (MJ) 和 SynthText (ST) 相结合的更好的STRS 性能。 我们的减缩研究展示了使用合成文本图像的子构件和关于生成合成文本图像的指南的好处。 我们的实施工作可以在 https://github. com/ cloovaai/ synthtiger 上公开查阅 。