项目名称: 基于Web及知识获取的无指导汉语词义消歧技术研究
项目编号: No.60903063
项目类型: 青年科学基金项目
立项/批准年度: 2010
项目学科: 无线电电子学、电信技术
项目作者: 刘鹏远
作者单位: 北京语言大学
项目金额: 17万元
中文摘要: 词义消歧是很多相关研究领域的一项困难而又重要的基础课题。由于有指导方法所能处理的词汇有限,无指导词义消歧近年来得到了普遍关注,而知识的自动获取是无指导消歧方法的关键。同时,Web资源在计算语言学领域的应用已经越来越受到重视并取得了很好的效果。本课题提出了基于Web及知识获取的无指导汉语词义消歧技术研究方法:1)将汉语词汇基于所需不同消歧知识进行一定粒度的分类;2)利用搜索引擎在Web及现有各类语义资源上进行词汇、句法及语义等不同层次消歧知识的自动获取;3)探求面向知识的特征选择,针对不同词汇类建立多知识源混合的消歧模型及消歧算法;4)在分治与自举的框架下,进行模型与算法优化及Web噪音过滤。目的在于寻求用最小资源与代价自动获取汉语词义消歧所必须的各类有效信息,排除知识获取过程中出现的Web噪音干扰,建立适合该无指导体系的词义消歧模型,缓解数据稀疏,最终给出实用的汉语词义消歧无指导解决方案。
中文关键词: 词义消歧;特征选择;ngram;知识获取;semeval
英文摘要:
英文关键词: word sense diambiguation;feature selection;ngram;knowledge acquisition;semeval