在近年来,场景文本检测取得了瞩目的进步并被广泛应用到自动驾驶和场景分析等领域。随着文本检测算法的迭代,场景文本检测的关注点已经从原来的水平方向文本和多方向文本转到更具挑战性的任意形状文本上。为了使文本检测算法在任意形状文本上达到更好的效果,亟需一种任意形状文本实例表示方法来提高算法的性能,良好的文本实例表示应当满足求解简单、表示方法参数量低、灵活度高的特点。目前现有的任意形状文本检测器大多在图像的空间域中表示文本实例,基于空间域的表示方法大体上可以分为两种,即像素掩膜表示和轮廓点序列表示。其中,像素掩膜表示方法可能需要繁杂和耗时的后处理过程,同时对训练样本量的需求往往也会更大;而轮廓点序列表示方法对高度弯曲文本的表达能力有限。由于傅里叶系数表示在理论上可以拟合任意的封闭曲线,并且文本轮廓更多集中在低频分量上,所以通过在傅立叶域对不规则场景文字实例进行表征能很好地解决上述问题,并且具有简单、紧凑、对复杂轮廓表达能力好的特点。
本文简要介绍CVPR 2021录用论文“Fourier Contour Embedding for Arbitrary-ShapedText Detection”的主要工作。该论文提出了一种基于傅里叶变换的任意形状文本框的表示方法和预测该文本框表示的算法流程,从而提高了自然场景文本检测中对于高度弯曲文本实例的检测精度。论文代码被商汤科技的OpenMMLab收录,近期将在其MMOCR项目中开源:https://github.com/open-mmlab/mmocr。