项目名称: 规则与统计相结合的现代汉语虚词用法自动识别研究
项目编号: No.60970083
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 昝红英
作者单位: 郑州大学
项目金额: 30万元
中文摘要: 与其它语言相比,汉语虚词在现代汉语中承担着尤其重要的语法表现和语义辨析任务。一般地,在句子中用错一个实词会造成一个词汇理解的错误,而用错一个虚词往往会造成整个句子甚至篇章的理解错误。因此,对现代汉语虚词用法的自动识别研究,将有助于现代汉语精确的机器理解,促进中文信息处理的相关研究。 现代汉语虚词的研究历史悠久,成果丰富。但是目前已有的虚词研究成果大都是面向人用的,很难直接应用于自然语言处理的研究。申请人从计算语言学的观点出发,根据目前汉语虚词知识的研究成果以及对《人民日报》中虚词用法的真实分布信息,着力改进现有的现代汉语虚词知识库,通过附加概率信息的虚词用法规则库,并利用ME、SVM以及CRF等统计模型,探讨规则与统计相结合的现代汉语虚词用法的自动识别。本项目研究成果可直接应用于机器翻译、信息检索、信息抽取、文本情感计算等自然语言处理领域,为中文文本内容的机器理解提供数据基础和技术支持。
中文关键词: 汉语虚词用法;用法自动识别;用法词典;用法规则库;用法语料库
英文摘要:
英文关键词: Chinese function words usages;Automatic identification;Dictionary of usages';Rule base of usages';Corpus of usages'