【导读】C-OCR是携程自研的OCR项目,主要包括身份证、护照、火车票、签证等旅游相关证件、材料的识别。项目包含4个部分,拒识、检测、识别、后处理。项目主要由Java实现。
拒识
拒识是针对图片中的姓名区域,校验是否曝光、遮挡以及模糊
检测
检测即确定图片中文本的位置
识别
检测部分使用了传统方法而非深度学习。对输入特征提取了RGB色彩模式、灰度化、二值化、HOG、LBP、HSV H 等图片特征,然后使用图片相似度对比算法如直方图匹配、Xor匹配、投影对比、质心对比等方法,最后使用logistics回归模型,计算预测结果。
后处理
后处理主要分为相似度比较、规则检验、全排列三个部分。其中相似度比较采用的是编辑距离。
Github链接:
https://github.com/ctripcorp/C-OCR
-END-
专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎登录www.zhuanzhi.ai,注册登录专知,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!
请加专知小助手微信(扫一扫如下二维码添加),加入专知人工智能主题群,咨询技术商务合作~
专知《深度学习:算法到实战》课程全部完成!560+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!
点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程