场景文本检测已广泛应用于在线教育、产品搜索、视频场景解析等领域。得益于深度学习技术,文本检测方法在文本为规则形状的图像上取得了很大的进展。近年来,因为任意形状文本检测能很好地适应实际应用,所以受到越来越多的关注。基于分割的方法引发了一波任意形状文本检测的浪潮,这一类方法通过像素级预测结果来分割出每个文本实例,很好地适应了文本形状的变化。但是基于分割的方法会有两个问题。第一个问题是基于分割的方法往往无法很好地分离图像中紧密相邻的文本实例,另一个问题是,现有的基于分割的方法中最终检测到的文本轮廓往往含有大量的缺陷和噪声。
本文简要介绍ICCV 2021录用的论文“Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection”的主要工作。该论文提出了一种用于任意形状文本检测的新型自适应候选边界网络,该网络可以学习直接为任意形状文本生成准确的边界而无需任何后处理。该网络通过一种迭代的方式不断的纠正文本边界,最后得到精确的文本边界。