腾讯数平精准推荐 | OCR技术之检测篇

2018 年 3 月 17 日 机器学习研究会

在过去的数年中，腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域，团队自研的基于深度在线点击率预估算法及全流程实时推荐系统，持续多年在该领域取得显著成绩。而在用户意图和广告理解上，借助于广告图片中的文本识别以及物体识别等技术手段，可以更加有效的加深对广告创意、用户偏好等方面的理解，从而更好的服务于广告推荐业务。

OCR（Optical Character Recognition, 光学字符识别）是指对输入图像进行分析识别处理，获取图像中文字信息的过程，具有广泛的应用场景，例如场景图像文字识别、文档图像识别、卡证识别（如身份证、银行卡、社保卡）、票据识别等。而场景文字识别（Scene Text Recognition，STR）不需要针对特殊场景进行定制，可以识别任意场景图片中的文字（如图1所示）。相较于传统OCR，场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。

图1 场景图片示例

场景文字识别这一问题在15~20年前就出现了相关的研究工作[1-3]，它与传统OCR的重要区别是需要将照片或视频中的文字识别出来，其主要分为两个步骤：

对照片中存在文字的区域进行定位（Text Detection），即找到单词或文本行（Word/Line-level）的边界框（Bounding Box）；
对定位后的文字进行识别（Text Recognition）。

将这两个步骤合在一起就能得到文字的端到端识别（End-to-end Recognition）结果。通常来说，实现场景文字的检测是首要的也是最重要的任务。

数平精准推荐团队在OCR领域深耕细作多年，自研的基于深度学习方法的文本检测与识别技术多次在ICDAR竞赛数据集上刷新世界纪录，特别是在2017年举办的第14届ICDAR官方竞赛中，斩获了“COCO-TEXT”、“医学文献图像”等挑战任务中的4项冠军，获得了业内广泛好评，同时也再次证明了团队在OCR领域的技术研发能力。本文将主要介绍数平精准推荐团队的文本检测技术。

转自：腾讯大数据

完整内容请点击“阅读原文”

登录查看更多