对自然图像中的文本进行检测和识别是计算机视觉领域的两个主要问题,在体育视频分析、自动驾驶、工业自动化等领域都有广泛的应用。他们面临着共同的具有挑战性的问题,即文本如何表示和受几种环境条件的影响的因素。当前最先进的场景文本检测和/或识别方法利用了深度学习体系结构的进步,并取得了在处理多分辨率和多方向文本时基准数据集的卓越准确性。然而,仍然有几个挑战影响自然图像中的文本,导致现有的方法表现不佳,因为这些模型不能泛化到看不见的数据和不足的标记数据。因此,不同于以往的综述,这个综述的目标如下: 首先,提供读者不仅回顾最近场景文字检测和识别方法,但也用一个统一的评估框架来呈现广泛开展实验的结果, 评估pre-trained模型选择的方法上具有挑战性的情况下,这些技术适用于相同的评估标准。其次,识别在自然图像中检测或识别文本存在的几个挑战,即平面内旋转、多方向和多分辨率文本、透视失真、光照反射、部分遮挡、复杂字体和特殊字符。最后,本文还提出了这一领域的潜在研究方向,以解决场景文本检测和识别技术仍面临的一些挑战。