Scene text recognition (STR) is very challenging due to the diversity of text instances and the complexity of scenes. The community has paid increasing attention to boost the performance by improving the pre-processing image module, like rectification and deblurring, or the sequence translator. However, another critical module, i.e., the feature sequence extractor, has not been extensively explored. In this work, inspired by the success of neural architecture search (NAS), which can identify better architectures than human-designed ones, we propose automated STR (AutoSTR) to search data-dependent backbones to boost text recognition performance. First, we design a domain-specific search space for STR, which contains both choices on operations and constraints on the downsampling path. Then, we propose a two-step search algorithm, which decouples operations and downsampling path, for an efficient search in the given space. Experiments demonstrate that, by searching data-dependent backbones, AutoSTR can outperform the state-of-the-art approaches on standard benchmarks with much fewer FLOPS and model parameters.


翻译:由于文本实例的多样性和场景的复杂性,场景识别(STR)非常具有挑战性。社区越来越重视通过改进预处理图像模块提高性能,如校正和分流或序列翻译。然而,另一个关键模块,即特征序列提取器尚未广泛探索。在这项工作中,由于神经结构搜索的成功(NAS)能够发现比人类设计的更好的结构,因此我们提议自动STR(AutoSTRA)搜索依赖数据的脊椎,以提高文本识别性能。首先,我们设计一个域域域域搜索空间,其中既包含操作选择,也包含下游路径的限制。然后,我们提出分解操作和下游路径的两步搜索算法,以便在给定空间进行有效搜索。实验表明,通过搜索数据依赖的脊椎,Autosstre可以超越标准基准上最先进的方法,使用更少的FLOPS和模型参数。

0
下载
关闭预览

相关内容

专知会员服务
61+阅读 · 2020年3月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
11+阅读 · 2019年4月15日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
Top
微信扫码咨询专知VIP会员