腾讯数平精准推荐 | OCR技术之检测篇

2018 年 3 月 17 日 机器学习研究会


在过去的数年中,腾讯数平精准推荐(Tencent-DPPR)团队一直致力于实时精准推荐、海量大数据分析及挖掘等领域的技术研发与落地。特别是在广告推荐领域,团队自研的基于深度在线点击率预估算法及全流程实时推荐系统,持续多年在该领域取得显著成绩。而在用户意图和广告理解上,借助于广告图片中的文本识别以及物体识别等技术手段,可以更加有效的加深对广告创意、用户偏好等方面的理解,从而更好的服务于广告推荐业务。


OCR(Optical Character Recognition, 光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。而场景文字识别(Scene Text Recognition,STR) 不需要针对特殊场景进行定制,可以识别任意场景图片中的文字(如图1所示)。相较于传统OCR,场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。

 

图1 场景图片示例

 

场景文字识别这一问题在15~20年前就出现了相关的研究工作[1-3],它与传统OCR的重要区别是需要将照片或视频中的文字识别出来,其主要分为两个步骤:

  • 对照片中存在文字的区域进行定位(Text Detection),即找到单词或文本行(Word/Line-level)的边界框(Bounding Box);

  • 对定位后的文字进行识别(Text Recognition)。

将这两个步骤合在一起就能得到文字的端到端识别(End-to-end Recognition)结果。通常来说,实现场景文字的检测是首要的也是最重要的任务。


数平精准推荐团队在OCR领域深耕细作多年,自研的基于深度学习方法的文本检测与识别技术多次在ICDAR竞赛数据集上刷新世界纪录,特别是在2017年举办的第14届ICDAR官方竞赛中,斩获了“COCO-TEXT”、“医学文献图像”等挑战任务中的4项冠军,获得了业内广泛好评,同时也再次证明了团队在OCR领域的技术研发能力。本文将主要介绍数平精准推荐团队的文本检测技术。


转自:腾讯大数据

完整内容请点击“阅读原文”

登录查看更多
13

相关内容

最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
专知会员服务
31+阅读 · 2020年4月24日
【新加坡国立大学】深度学习时代数据库:挑战与机会
专知会员服务
33+阅读 · 2020年3月6日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
97+阅读 · 2019年12月14日
自然场景下的文字检测:从多方向迈向任意形状
极市平台
6+阅读 · 2019年6月17日
实战 | 图像矫正技术
计算机视觉life
5+阅读 · 2019年2月28日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
历经近一个世纪的OCR技术如今怎么样了?
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
Arxiv
6+阅读 · 2018年2月6日
Arxiv
3+阅读 · 2017年11月12日
VIP会员
相关资讯
自然场景下的文字检测:从多方向迈向任意形状
极市平台
6+阅读 · 2019年6月17日
实战 | 图像矫正技术
计算机视觉life
5+阅读 · 2019年2月28日
白翔:复杂开放场景中的文本理解
深度学习大讲堂
12+阅读 · 2018年6月5日
历经近一个世纪的OCR技术如今怎么样了?
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
OCR技术浅析
机器学习研究会
40+阅读 · 2017年12月8日
微信OCR(1)——公众号图文识别中的文本检测
微信AI
17+阅读 · 2017年11月22日
白翔:趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十
深度学习大讲堂
19+阅读 · 2017年9月4日
Top
微信扫码咨询专知VIP会员