论文题目: Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition
作者: Yue He, Chen Chen, Jing Zhang, Juhua Liu, Fengxiang He, Chaoyue Wang, Bo Du
指导教师:杜博教授
论文概述: 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率, 然而忽略了字符实例内部和字符实例之间的二维空间视觉语义,使得这些方法不能很好地应用泛化到任意形状的场景文本。为了解决这个问题,本文中首次尝试利用视觉语义进行文本推理。具体而言,在给定 VR 模型预测的字符分割图,首先为每个字符实例构建一个子图,并通过根节点顺序连接合并成一个完整的图。其次基于该图,我们设计了一个图卷积网络(GTR)进行视觉文本推理。同时我们将GTR 和语言模型结构并行构建S-GTR,通过相互学习有效地利用视觉语言互补性。另外GTR 可以插入不同的STR 模型以提高其识别性能。实验证明了所提方法的有效性,S-GTR 在六个通用场景文字识别数据集上获得较好表现,并可以推广到多语言数据集。
https://www.zhuanzhi.ai/paper/423d31bbe1e7fe0d5ca545b8b3734b7f