[ICCV 2021] 联合视觉语义推理：文本识别的多级解码器

2021 年 11 月 28 日 专知

本文简要介绍ICCV2021录用论文“Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition”的主要工作。作者提出了一种多阶段多尺度注意力解码器，用于执行联合视觉语义推理，从而进一步利用语义信息。第一阶段使用视觉特征进行预测，随后的阶段使用联合视觉语义信息进行优化。

图1 本文方法流程示意图

一、研究背景

由于复杂的背景、不同的字体、不受控制的照明、扭曲和其他人为因素，最先进的文本识别框架仍然难以适应各种场景 [1] 。当人类面对这些挑战时，我们可以通过联合视觉语义推理来很容易地识别它们。因此，“如何开发文本识别的视觉语义推理技能”是一个重点问题。

在野外场景中，文字图像可能会模糊、扭曲或部分失真，噪声或有伪影，这使得仅使用视觉特征识别非常困难。在这种情况下，我们人类会首先尝试仅使用视觉线索来解释易于识别的字符。然后，联合处理先前已经识别的字符序列的视觉和语义信息，应用语义推理技巧对最终的文本进行解码。

二、方法原理

给定一个输入字图像

，我们打算预测字符序列

，其中 T 表示文本的可变长度。我们的框架有两个方面：（ i ）视觉特征提取器提取上下文丰富的整体特征和多尺度特征图。（ ii ）随后，多阶段注意力解码器以阶段连续方式建立字符序列估计。

图2 模型结构图

1、视觉特征提取

我们采用[2]中的ResNet作为主干卷积网络，从输入图像中提取视觉特征。为了处理不同尺度的字符，我们利用特征金字塔网络[3]扩展到文本识别的多尺度体系结构，该网络通过横向连接使每个分辨率级别在语义上都很强。将特定比例的特征图表示为

，其中

表示分辨率最低但语义级别最高的最深残差块。

为了平衡计算复杂度和性能增益，我们令

。视觉特征由两个组成部分：（i）多尺度特征图

，它在后面的解码过程中充当2D注意力图的上下文。（ii）整体特征

，用于初始化第一级解码器的初始状态。

2、联合视觉语义推理解码器

设第S 阶段解码器的预测表示为

。具体地说，第一级解码器仅依赖于提取的视觉特征。后续阶段还使用了建立在初始预测之上的全局语义信息，采用了阶段解码范式。

（1）解码阶段

对于第一级解码器

，初始隐藏状态由整体视觉特征初始化：

。同时

使用局部字符特定信息进行扩充。在每 t-th 时间步，我们得到输出字符的分布如下

和

。一旦预测到“ End-token ”，解码过程停止。

（2）解码阶段

在前一阶段的预测中可能存在不正确的实例，后一阶段会改进错误的预测，同时保留正确的预测。虽然这类似于基于语言模型（LM）的后处理[4]或纠错网络[4]，但我们提出的阶段式解码器都耦合在端到端可训练的深度架构中。后续解码阶段

可以被建模为如下公式：

（3）可微语义空间

从字符词汇表

上的分布中获取离散字符标记需要不可微的Argmax操作。由于我们的动机在于端到端可训练的框架中耦合多级解码器，因此我们采用Gumbel Softmax重新参数化技巧[5]和直通（ST）梯度估计器，以便梯度可以跨级反向传播。这使模型能够学习基于推理的细化策略，而不是之前的预测。

（4）视觉语义推理

我们掩码（也会有目的地用错误的实例替换）某些输入时间步长，并通过线性层强制预测掩码令牌。这有助于模型提前使用纯文本数据了解更好的细化潜力。

三、主要实验结果

本文使用的训练集是合成数据集，如 SynthText 和 Synth90k 。测试集是 Street View Text （ SVT ）、 ICDAR 2013 （ IC13 ）、 ICDAR 2015 （ IC15 ）、 CUTE80 、 SVT-Perspective （ SVT-P ）、 IIIT5K-Words 。

图3 联合视觉语义信息如何通过阶段细化帮助识别（从左到右

）

表1显示了我们提出的方法以合理的幅度超过SOTA方法。每种方法的突出贡献也在这里简要提及。

表1 所提出方法与不同最新方法的比较

表2、表3、表4使用IC15数据集。

表2 （左）多重约束对IC15的影响。（右）不同的训练数据大小。（

：仅最后阶段，

：多阶段， GAP ：与最终性能相比的 WRA 差距。）

表3 联合视觉语义推理模块的意义以及与语言模型（LM）的比较

表4 对所提出的方法进行了计算分析

四、总结与讨论

本文提出了一种新的基于联合视觉语义推理的多阶段多尺度注意力解码范式。第一阶段根据视觉特征进行预测，然后使用联合视觉语义信息进行细化。同时进一步利用 Gumbel-softmax 操作使视觉到语义嵌入层可微分。这使得跨阶段的反向传播能够使用联合视觉语义信息来学习细化策略。

此外，本文还引入了多尺度2D注意力以及不同阶段之间的密集和残差连接，以处理不同尺度的字符大小，从而在训练期间获得更好的性能和更快的收敛速度。实验结果表明，本文的方法比现有的SOTA方法有相当大的优势。

五、相关资源

论文地址：

https://openaccess.thecvf.com/content/ICCV2021/papers/Bhunia_Joint_Visual_Semantic_Reasoning_Multi-Stage_Decoder_for_Text_Recognition_ICCV_2021_paper.pdf

参考文献

[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In ICCV, 2019. 1, 6, 7

[2] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification. T-PAMI, 2018. 1, 2, 3, 6, 7

[3] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017. 3, 7

[4] Alla Rozovskaya and Dan Roth. Generating confusion sets for context-sensitive error correction. In EMNLP, 2010. 4

[5] Eric Jang, Shixiang Gu, and Ben Poole. Categorical reparameterization with gumbel-softmax. In ICLR, 2017. 1, 2, 5, 6, 7

原文作者: Ayan Kumar Bhunia, Aneeshan Sain, Amandeep Kumar*, Shuvozit Ghose*, Pinaki Nath Chowdhury, Yi-Zhe Song

撰稿：张晓怡

编排：高学

审校：殷飞

发布：金连文

专知便捷查看