Almost all scene text spotting (detection and recognition) methods rely on costly box annotation (e.g., text-line box, word-level box, and character-level box). For the first time, we demonstrate that training scene text spotting models can be achieved with an extremely low-cost annotation of a single-point for each instance. We propose an end-to-end scene text spotting method that tackles scene text spotting as a sequence prediction task, like language modeling. Given an image as input, we formulate the desired detection and recognition results as a sequence of discrete tokens and use an auto-regressive transformer to predict the sequence. We achieve promising results on several horizontal, multi-oriented, and arbitrarily shaped scene text benchmarks. Most significantly, we show that the performance is not very sensitive to the positions of the point annotation, meaning that it can be much easier to be annotated and automatically generated than the bounding box that requires precise positions. We believe that such a pioneer attempt indicates a significant opportunity for scene text spotting applications of a much larger scale than previously possible.


翻译:几乎所有场景文本识别(检测和识别)方法都依赖于昂贵的框注解(例如,文本线框、字级框和字符级框)。我们第一次展示了培训场景文本识别模型可以以极低的成本对每个场景的单点进行批注。我们提出了一个端到端的场景文本识别方法,该方法将现场文本定位作为顺序预测任务处理,如语言建模。由于图像作为输入,我们将想要的检测和识别结果作为离散符号的序列,并使用自动递增变异器来预测序列。我们在若干水平、多方向和任意塑造的场景文本基准上取得了有希望的结果。最重要的是,我们显示性能对于点注解的方位并不十分敏感,这意味着比要求精确位置的捆绑框更容易附加附加说明和自动生成。我们相信,这种先驱尝试为现场文本查找比以往可能大得多的规模应用提供了一个重要的机会。

0
下载
关闭预览

相关内容

卷积神经网络压缩中的知识蒸馏技术综述
专知会员服务
54+阅读 · 2021年10月23日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
31+阅读 · 2021年6月12日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年8月28日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Arxiv
31+阅读 · 2021年6月30日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2017年1月2日
VIP会员
相关VIP内容
卷积神经网络压缩中的知识蒸馏技术综述
专知会员服务
54+阅读 · 2021年10月23日
专知会员服务
7+阅读 · 2021年10月4日
专知会员服务
31+阅读 · 2021年6月12日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
8+阅读 · 2019年8月28日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
相关论文
Arxiv
31+阅读 · 2021年6月30日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
3+阅读 · 2017年11月12日
Arxiv
4+阅读 · 2017年1月2日
Top
微信扫码咨询专知VIP会员