©作者 | Hanbo Cheng
单位 | NJUST
研究方向 | 场景文字检测
GLASS: Global to Local Attention for Scene-Text Spotting
论文链接:
https://arxiv.org/abs/2208.03364
Abstract
本篇文章针对端到端的 Scene-Text Spotting 任务,提出里一个新颖的 Module :
GLASS (Global-to-Local Attention mechaniSm for text Spotting)
。这个模块结合了 image 中的 global feature(大尺度,低分辨率)和 local feature(小尺度,高分辨率)对任务进行端到端的训练。同时文章还提出了一个新的基于旋转的损失函数,优化了模型对旋转字体的识别。通过实验,该模块和损失函数可以显著增加现有模型的 performance。
文章试图解决什么问题?
端到端的 Scene-Text Spotting 的一个主要挑战是文字尺度的变化(large text/ small text),以及文字存在旋转角度。
文章主要的贡献
Methodology
2.1 GLASS
GLASS 主要针对的分支是 recognition branch,这里是 GLASS 中的运算示意图:
首先关于 Global feature 和 Local feature 从何而来?也就是
,
。
2.2 Global和local的融合
用文字概括一下:原本
,
的大小都是
,现在将他们的 Channel 分成 k 等分,
,再将他们以上述的形式 concat 起来, 最终变成 channel 为
的向量(共WH)。
这一部分将简单的 concat 深度的 fuse:
其中
是一个可学习的向量,
将 tesor reshape 成
的形式。
这一步相当于通过注意力机制得到一个初步融合的特征
。
其中
是一个可学习的向量,实际上就是一个 1*1 的卷积,
是批标准化。
2.3 Orientation Prediction
本文针对一个 bbox 设置了 5 个描述参数,2 个描述中心坐标,2个用于描述 H,W,1 个用于描述旋转角度,整个 bbox 的 loss function:
这个损失函数,针对前四个参数采用了 L1 norm,针对角度,设计了一个基于正弦函数的 loss,不难看出有这样的特性,偏移 k*180 的 loss=0,并且这一部分是可以求导的。同时满足了合理性和可导。
2.4 Global to Local End-to-End Text Spotting(模型总述)
整个模型的 backbone 是 ResNet50 和 FPN。
通过是哦那个 Rotated-RoIAlign,在 FPN 的各个层级上采样得到。对于
先对输入图像做 Rotated-RoIAlign,再使用 ResNet34 抽取特征得到。使用上述的 GLASS 得到融合特征
用它完成 text 的 recognition。关于 mask branch,仅仅采用了 global feature(这一点和 Mask R-CNN 的处理基本一致,应该不是文章的重点)
模型的总体优化目标:
:mask loss,和 mask R-CNN 一致
Experiment
文章在几个 benchmark 上测试了方法的表现,并且和 SOTA 模型做了比较。同时,文章也尝试将 GLASS 融合进了两个较为常见的 E2E,Scene-text spotting 网络(Mask TextSpotter v3, ABCnet v2),并测试了融合后的性能。此外又做了一些消融实验。
3.1 Comparison with SOTA
针对不同的文字旋转角,和别的模型对比 performance,可以看出 GLASS 能很好的应对旋转过的文字。
3.2 Incorporating GLASS into other methods
可以看出,加入了 GLASS 之后,其他模型在 Total-Text 和 ICDAR2015 数据集上都有提升,尽管处理速度些许变慢。
3.3 消融实验
关于是否使用 Global 和 Local feature,以及是否 fuse 它们,和以什么样的方式 fuse 做了消融实验。可以看出采用全局和局部特征+ GLASS 融合,可以取得最好的表现。
针对 bbox 的损失函数做了消融实验,主要是是否用基于正弦的方式计算角度的 loss,还是说使用 L1norm。可以看出基于正弦函数的方法明显更优。
GLASS 对于识别不同尺度文字的影响,可以看出增加了 GLASS 以后,对于各种尺度的文字识别,performance 都有提升。
仅仅针对 recognition branch 做的消融实验,这里使用 ground truth bbox,消除 detection branch 的影响。可以看出 GLASS 对于 recognition 有提升。
Rethink
1. 本文针对尺度不同,以及旋转角的问题做了一些特化的设计,并取得了不错的效果。这里提到的使用 FPN 提取 Global 特征(low resolution),使用直接的 feature map 提取 local 特征,再将两组特征加以融合的方法十分值得学习。再以后遇到 scale 方面的问题,或许可以采用类似的思路。
2. 文章结尾提到:在一些场景文字,各个字符间隔较大时,以及遇到一些不规则的字体时,模型会出现误判,这也是未来的一个努力方向。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱: hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」 也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」 订阅我们的专栏吧