项目名称: 基于合成样本和MCE准则下判别学习的汉字手写文本识别研究
项目编号: No.60975020
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 张田文
作者单位: 哈尔滨工业大学
项目金额: 32万元
中文摘要: 在手写文本库的支持下,从无切分的全新角度研究真实手写环境中的脱机汉字识别,是汉字手写识别从孤立汉字走向真实文本这一新里程的核心技术。无切分策略是把字符切分阶段和识别阶段合二为一,并进行联合优化,旨在充分利用手写文本行的整体信息,这一策略的可行性和有效性,以及与现有切分策略的互补性已经在前期研究工作中得到证实。本项目将在此基础上,研究汉字手写文本识别中的三项关键技术:1).建立中文手写文本库HIT-MW(第二版),并对保证手写文本库的代表性、典型性的方法和验证机制进行研究;2).研究汉字手写样本合成理论,通过建立自学习、自适应的合成样本,有效克服库中存在的数据稀疏问题;3).研究基于最小分类错误准则的判别学习方法,有望解决无切分识别策略的松散训练结构,提高字符模型的区分能力。本项目为进一步研究汉字手写文本识别的系综分类理论奠定坚实的理论基础,并为汉字手写识别的各种应用提供有力的技术支持。
中文关键词: 手写文本库;手写合成样本;汉字识别;判别学习;MCE准则
英文摘要:
英文关键词: handwritten text database;synthesizing handwriting;Chinese character recognition;discriminative learning;MCE criteria