项目名称: 多文种文档图像识别的多层次马尔可夫随机场模型研究
项目编号: No.60872086
项目类型: 面上项目
立项/批准年度: 2009
项目学科: 无线电电子学、电信技术
项目作者: 彭良瑞
作者单位: 清华大学
项目金额: 30万元
中文摘要: 近年来,我国汉字及主要少数民族文字等现代印刷文档识别研究已取得重要成果。中华民族文化的信息化及国际化发展亟待更有效地解决多文种印刷及手写文档识别领域中的文种及文档类型扩展问题。本项目在原有研究尚未考虑的文档图像分割和识别统一建模方面,提出系统描述不同文种文档版面分析、文本行字切分和字符识别整个过程的多层次马尔可夫随机场(Hierachical Markov Random Field, HMRF)模型理论方法。研究内容为:对于不同体系文种,在图像页面、区域、文本行、字符多个层次上进行文档图像HMRF模型构造的方法;利用标记样本和大量实际未标记样本的半监督学习进行HMRF模型训练;利用已训练的模型对输入文档图像进行识别的优化求解方法。前期相关研究说明该理论方法具有可行性。研究难点为综合利用图像全局和局部信息以及先验知识来提高文档识别率;研究创新点为首次提出多种文档图像分割与识别的统一理论模型。
中文关键词: 多文种文档;图像识别;多层次马尔可夫随机场;半监督学习
英文摘要:
英文关键词: