Scene text recognition (STR) has been widely studied in academia and industry. Training a text recognition model often requires a large amount of labeled data, but data labeling can be difficult, expensive, or time-consuming, especially for Traditional Chinese text recognition. To the best of our knowledge, public datasets for Traditional Chinese text recognition are lacking. This paper presents a framework for a Traditional Chinese synthetic data engine which aims to improve text recognition model performance. We generated over 20 million synthetic data and collected over 7,000 manually labeled data TC-STR 7k-word as the benchmark. Experimental results show that a text recognition model can achieve much better accuracy either by training from scratch with our generated synthetic data or by further fine-tuning with TC-STR 7k-word.


翻译:培训文本识别模型往往需要大量贴标签的数据,但数据标识可能困难、昂贵或费时,特别是传统的中文文本识别。据我们所知,缺少用于传统中文文本识别的公共数据集。本文为传统的中国合成数据引擎提供了一个框架,目的是改进文本识别模型的性能。我们生成了2 000多万个合成数据,并收集了7 000多个手工贴标签的数据(TC-STR 7k字)作为基准。实验结果显示,文本识别模型可以通过从零到零地培训我们生成的合成数据,或者通过进一步调整TC-STR 7k字来实现更高的准确性。

0
下载
关闭预览

相关内容

零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
20+阅读 · 2020年6月8日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
3+阅读 · 2018年12月29日
Arxiv
7+阅读 · 2018年6月8日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
学术会议 | 知识图谱顶会 ISWC 征稿:Poster/Demo
开放知识图谱
5+阅读 · 2019年4月16日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
3+阅读 · 2018年8月21日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
20+阅读 · 2020年6月8日
SwapText: Image Based Texts Transfer in Scenes
Arxiv
4+阅读 · 2020年3月18日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
3+阅读 · 2018年12月29日
Arxiv
7+阅读 · 2018年6月8日
Top
微信扫码咨询专知VIP会员