项目名称: 蒙古文多层次形态分析研究
项目编号: No.61163020
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 白双成
作者单位: 内蒙古自治区社会科学院
项目金额: 47万元
中文摘要: 本项目是一个规则与统计方法相结合构造三个层次的蒙古文形态分析方法体系,以能够应用于各类应用系统为目标的基础研究项目。项目以课题组已有成果"蒙古文框架知识库"为基础数据,通过研究实现基于机器学习方法的构件库和整词生成规则重构方法、参数化蒙古文字形比较方法、未登录词特征信息自动推导方法等关键技术,从搜索引擎搜集网络资源和语料库资源中剥离拼错词,回收未登录词,以求构造精确形态分析的Lemmatization方法。探索符合蒙古文自身特点的统计模型特征选取和优化原则,利用语料资源中通过Lemmatization方法无歧义标注部分为训练集统计建模,构造Stemming方法。以Stemming方法再对未标注和歧义标注部分进行有监督学习和扩充形态分析库。依此循环渐进地达到规则方法与统计方法的互补互促和整合。最后观察分析上述数据基础上精炼出高效Stemmer。项目研究意义重大、成果转化前景乐观。
中文关键词: 蒙古文;形态分析;语言模型;机器学习;知识库
英文摘要:
英文关键词: Mongolian script;morphological analyse;language model;machine learning;repository