近日,在OCR识别领域最具权威的ICDAR数据集挑战中,商汤团队频传捷报,取得三项任务榜单第一。其中,最有影响力和难度最大的ICDAR2015数据集中,文字检测和端到端识别两项任务排名世界第一,超过了百度、三星等团队。在ICDAR2013数据集文字检测任务中,又斩获世界第一,超过腾讯、旷视、百度、微软、三星等国内外强队。
今年,商汤的算法在ICDAR数据集及MS COCO、CVPR会议相关赛事中,得以验证并刷新了多项任务的最好成绩,领先的前沿技术不仅推动了计算机视觉技术在各领域的发展,也将在更多实际场景中带来突破。
ICDAR2017 MLT数据集上文字检测任务排名第一
ICDAR2015 数据集文字检测任务排名第一
ICDAR2015 数据集文字检测识别端到端任务
word spotting标准下Strongly Contextualised排名第一
ICDAR2015 数据集文字检测识别端到端任务
word spotting标准下Generic排名第一
ICDAR数据集每届呈现的特点不同,难度和复杂性也逐渐提高。从ICDAR 2013起,主要针对在自然场景下的水平文字检测,随后在ICDAR2015和ICDAR2017中,数据集的难度不断增加,文字检测不仅要在自然场景下完成,字体变化如模糊、倾斜、背景干扰等也增加复杂性和识别难度,带来更大挑战。ICDAR2017又增加了多国语言的文字检测,难度进一步加深。
所以,由于ICDAR的难度复杂性和专业度,无可厚非成为了OCR领域最受关注的竞赛,每届ICDAR公布的数据集,吸引世界各国的深度学习、OCR领域技术强队前来刷榜、挑战。由IAPR主办的ICDAR文档分析与识别国际会议,自1991年创办以来,每两年举行一次,每届的东道国也在变化。
ICDAR2013 数据集上文字检测任务DetEval排名第一
ICDAR2013 数据集上文字检测任务IOU排名第一
基于FCN检测网络,商汤研究团队从今年3月份起开始准备,通过算法的复现,克服技术上的重重困难,一步步将遇到的问题改进、完善。利用文字检测和识别的方法,商汤团队在最后feature map上每个点预测对应的文字位置,并将文字区域对应的feature map进行识别。通过端到端训练方法,在数据集任务中对算法性能有很大的提升,减少了算法运算的时间。
随着竞赛推动力的算法更新及OCR领域的发展,商汤研究团队不仅将深度学习技术在各大赛事及数据集任务上做到更新迭代,一些实际场景中效果比较好的算法,也应用在工程和产品化落地中。目前,在ICDAR三个数据集中自然场景下的文字检测和识别,商汤科技已将领先的OCR技术与众多现实场景相结合,除卡证类、票据类的文字识别,还包括车牌检测识别、商标识别、道路标识识别、自动驾驶、短视频及图片中的文字审核等等,大大提升了产品检测识别效果和用户体验,降低了人力成本。
前不久,商汤科技刚刚宣布同日本著名汽车公司本田达成合作,作为全球领先的人工智能企业,商汤领先的OCR识别技术也将在自动驾驶领域带来视觉感知和安全性能的提升。商汤科技也将不断通过算法的提升,赋能更多的行业,引领人工智能视觉技术在各应用场景落地的新趋势,将精准的算法与更多先进的技术和产品相结合,让人们感受到前沿技术迭代赋予生活的诸多美好。