Scene text recognition (STR) enables computers to read text in natural scenes such as object labels, road signs and instructions. STR helps machines perform informed decisions such as what object to pick, which direction to go, and what is the next step of action. In the body of work on STR, the focus has always been on recognition accuracy. There is little emphasis placed on speed and computational efficiency which are equally important especially for energy-constrained mobile machines. In this paper we propose ViTSTR, an STR with a simple single stage model architecture built on a compute and parameter efficient vision transformer (ViT). On a comparable strong baseline method such as TRBA with accuracy of 84.3%, our small ViTSTR achieves a competitive accuracy of 82.6% (84.2% with data augmentation) at 2.4x speed up, using only 43.4% of the number of parameters and 42.2% FLOPS. The tiny version of ViTSTR achieves 80.3% accuracy (82.1% with data augmentation), at 2.5x the speed, requiring only 10.9% of the number of parameters and 11.9% FLOPS. With data augmentation, our base ViTSTR outperforms TRBA at 85.2% accuracy (83.7% without augmentation) at 2.3x the speed but requires 73.2% more parameters and 61.5% more FLOPS. In terms of trade-offs, nearly all ViTSTR configurations are at or near the frontiers to maximize accuracy, speed and computational efficiency all at the same time.


翻译:显示文本识别(STS) 使计算机能够在物体标签、路标和指示等自然场景中阅读文字。 STS 帮助机器执行知情决定, 如选择对象、 方向和下一步行动。 在STS 的正文中, 重点始终是确认准确性。 很少强调速度和计算效率, 这对于能源限制的移动机器来说尤其重要。 在本文中, 我们提议VITSTR, 是一个简单的单一阶段模型结构, 以一个计算和参数高效的视觉变异器( VT) 为基础, 简单的单一阶段。 在类似快速的基线方法( 如TRBA, 精确度为84.3% ), 我们的小VITSTR 实现了82.6%( 84.2%) 的竞争性准确性, 数据增加2.4x速度, 仅使用43.4%的参数和42.2%的FLOPS。 VITS 的所有小版本都达到80.3%的准确性( 82.1%), 速度为2.5x, 只需要10.9%的参数和11.9%的FLOPS。 。 在数据增强中, 的精确性为: 2.3 更精确性为25, 在数据增长中, 或更接近的TRSBRBRBRBRFS 的精确度为23 的精确度为23 。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
专知会员服务
109+阅读 · 2020年3月12日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
FastText的内部机制
黑龙江大学自然语言处理实验室
5+阅读 · 2018年7月25日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
1+阅读 · 2021年7月9日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关资讯
CCF推荐 | 国际会议信息10条
Call4Papers
8+阅读 · 2019年5月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
FastText的内部机制
黑龙江大学自然语言处理实验室
5+阅读 · 2018年7月25日
计算机视觉领域顶会CVPR 2018 接受论文列表
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员