项目名称: 汉语缩略语识别以及歧义消解技术研究
项目编号: No.60973053
项目类型: 面上项目
立项/批准年度: 2010
项目学科: 自动化技术、计算机技术
项目作者: 王厚峰
作者单位: 北京大学
项目金额: 30万元
中文摘要: 缩略语是新词的主要来源,而新词对自然语言处理中的词性标注,词义确定与消歧,命名实体识别及共指消解等造成了严重障碍;在中文信息处理中,还造成了分词的极大困难。与一般新词不同,缩略语在构成上表现出特有的规律。本课题的目的就是系统地研究汉语缩略语的规律,探讨缩略语处理的若干关键技术。主要包括:(1)根据大规模的语料与缩略语-原形语对照表,研究缩略语的构成规律及词性表现规律;(2)利用所获规律,研究汉语缩略语的识别技术以及具有缩略语识别能力的汉语词处理模型;(3)研究从文本中挖掘缩略语-原形语对,自动扩充缩略语-原形语的对照表;(4) 探讨如何在文本中预测缩略语所对应的原形语以及如何消解缩略语的歧义,并针对上下文信息不充足的情况,研究缩略形式向原形语的还原转换。本项研究将有助于解决缩略语对中文信息处理诸多环节的困扰,并为相关应用提供支持。
中文关键词: 缩略语预测;缩略语挖掘;缩略语识别;实体共指;歧义消解
英文摘要:
英文关键词: Abbreviation prediction;abbreviation mining;abbreviation recognition;entity coreference;disambiguation