项目名称: 维吾尔语语素结构规则及其应用研究
项目编号: No.61163032
项目类型: 地区科学基金项目
立项/批准年度: 2012
项目学科: 自动化技术、计算机技术
项目作者: 艾克白尔·帕塔尔
作者单位: 新疆大学
项目金额: 49万元
中文摘要: 项目组将独立创建基于语素规律(语音规律、词法规律、句法规律)的统计模型和训练算法,实现适合粘性语言特点的关键性的处理算法,并在实际应用中验证和完善。实现高准确率的词性自动标注系统,文字校对系统。项目组将重点研究基于最大熵和CRF框架的算法的设计、维语独特的语言特征参数收集、归纳、检验,和基于SVM机的聚类算法实现和词性自动标注等内容。将维吾尔语语素规则的特征化分析方法分成三个主要研究任务进行:词的语素规律分析、词性标注、层次化统计分析。本项目的目的在于解决我国少数民族(特别是黏着语言)自然语言研究中的一大瓶颈。引入语素结构分析方法,对维语等粘性语言中非常有效。用小的训练语料库可以获得高的覆盖率,有效解决数据稀疏问题,提高了效率和模型的性能,更适合于非主流语言的自然语言处理研究工作。
中文关键词: 维吾尔语;词素结构;词干提取;文字校对;语言模型
英文摘要:
英文关键词: Uyghur;Morphological structure;Stemming;Proofreading;Language Model